Exemple de analiză a datelor Poisson / stata umflate la zero

informații despre versiune: codul pentru această pagină a fost testat în Stata 12.

regresia Poisson umflată la Zero este utilizată pentru a modela datele de numărare care au un exces de numărări zero. Mai mult, teoria sugerează că excesul de zerossunt generate de un proces separat de valorile contorizării și că excesul de zerouri poatesă fie modelat independent. Astfel, modelul zip are două părți, un model Poisson count și modelul logitpentru prezicerea excesului de zerouri. Poate doriți să examinați aceste pagini de exemplu de analiză a datelor, regresia Poisson și regresia logit.

vă rugăm să rețineți: scopul acestei pagini este de a arăta cum să utilizați diverse comenzi de analiză a datelor. Nu acoperă toate aspectele procesului de cercetare pe care se așteaptă să le facă cercetătorii. În special, acesta nu acoperă curățarea și verificarea datelor, verificarea ipotezelor, diagnosticarea modelelor și eventualele analize ulterioare.

Exemple de regresie Poisson umflată la zero

Exemplul 1.

administratorii școlilor studiază comportamentul de participare al Juniorilor de liceu pe parcursul unui semestru la două școli. Participarea este măsurată în funcție de numărul de zile de absență și este prezisă în funcție de sexul elevului și de scorurile standardizate ale testelor în artele matematice și lingvistice. Mulți studenți nu au absențe în timpul semestrului.

Exemplul 2.

biologii faunei sălbatice de stat doresc să modeleze câți pești sunt prinși de pescari într-un parc de stat. Vizitatorii sunt întrebați dacă au sau nu un camper, câteoamenii erau în grup, erau copii în grup și câte pești au fost prinși.Unii vizitatori nu pescuiesc, dar nu există date despre dacă o persoană a pescuit sau nu. Unii vizitatori care au făcut pește nu au prins niciun pește, astfel încât există zerouri în exces în date din cauza oamenilor care nu au pescuit.

descrierea datelor

să urmărim Exemplul 2 de sus.

avem date despre 250 de grupuri care au mers într-un parc. Fiecare grup a fost întrebat despre câți pești au prins (numărați), câți copii au fost în grup (copil), câți oameni au fost în grup (persoane) și dacă au adus sau nu un camper în parc (camper).

pe lângă prezicerea numărului de pești capturați, există interes în prezicerea existenței zerourilor în exces, adică zerourile care nu au fost pur și simplu rezultatul pescuitului cu ghinion. Vom folosi variabilele copil, persoane și camper în modelul nostru. Să ne uităm la date.

metode de analiză puteți lua în considerare

mai jos este o listă a unor metode de analiză pe care le-ați întâlnit.Unele dintre metodele enumerate sunt destul de rezonabile, în timp ce altele au căzut din favoare sau au limitări.

  • regresia Poisson umflată la Zero-punctul central al acestei pagini web.
  • regresia binomială negativă umflată la zero-regresia binomială negativă se descurcă mai bine cu datele dispersate, adică varianța mult mai mare decât media.
  • modele ordinare de numărare – Poisson sau modelele binomiale negative ar putea fi mai potrivite dacă nu există zerouri în exces.
  • regresia OLS – puteți încerca să analizați aceste date folosind regresia OLS. Cu toate acestea, countdatele sunt foarte non-normale și nu sunt bine estimate prin regresia OLS.

regresia Poisson umflată Zero

vom rula comanda zip cu copilul și camperul ca predictori ai numărului,persoanele ca predictor al zerourilor în exces. Am inclus opțiunea vuongcare oferă un test al modelului umflat zero față de modelul standard poisson.

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

ieșirea arată foarte mult ca ieșirea dintr-o regresie OLS:

  • începe cu jurnalul de iterație care dă valorile probabilităților jurnalului începând cu un model care nu are predictori. Ultima valoare din jurnal este valoarea finalăa probabilității jurnalului pentru modelul complet și se repetă mai jos.
  • urmează informațiile din antet. În partea dreaptă sunt date Numărul de observații utilizate (250), Numărul de observații diferite de zero (108) împreună cu raportul de probabilitate chi-pătrat. Aceasta compară modelul complet cu un model fără predictori de numărare, oferind o diferență de două grade de libertate. Aceasta este urmată de valoarea p pentru chi-pătrat. Modelul, în ansamblu, este semnificativ statistic.
  • sub antet veți găsi coeficienții de regresie Poisson pentru fiecare număr care prezice variabilele, împreună cu erorile standard, scorurile z, valorile p și intervalele de încredere de 95% pentru coeficienți.
  • urmează coeficienții logit pentru variabila care prezice excesul de zerouri împreună cu erorile sale standard, scorurile z, valorile p și intervalele de încredere.
  • sub diferiții coeficienți veți găsi rezultatele testului Vuong. Testul TheVuong compară modelul umflat zero cu un model obișnuit de regresie poisson.Un test z semnificativ indică faptul că modelul umflat zero este mai bun.
  • Cameron și Trivedi (2009) recomandă erori standard robuste pentru modelele poisson.Vom relua modelul cu opțiunea vce (robust). Nu am inclus această opțiuneîn primul model, deoarece opțiunile robuste și vuong nu pot fi utilizate în același model.

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

acum putem trece la specificul rezultatelor individuale.

  • Utilizarea opțiunii robuste a dus la o schimbare destul de mare a modelului chi-square,care este acum un Wald chi-square. Această statistică se bazează pe pseudo-probabilitatea jurnalului în loc de probabilitatea jurnalului.
  • coeficienții pentru copil și camper pot fi interpretați după cum urmează:
    • pentru fiecare creștere unitară a copilului, numărul log așteptat al variabilei de răspuns scade cu 1, 043.
    • fiind un camper crește numărul de jurnal așteptat de .834.
  • coeficientul de umflare pentru persoanesugerează că pentru fiecare unitate crește în persoană cotele de jurnal ale unei scăderi zero umflate cu.564.

putem folosi marginile (introduse în Stata 11) pentru a ajuta la înțelegerea modelului nostru. Vom calcula mai întâi numărul așteptat pentru variabila categorică camper în timp ce țineți copilul variabil continuu la valoarea medie utilizând opțiunea atmeans.

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

numărul așteptat pentru numărul de pești capturați de noncampers este de 1.289, în timp ce pentru rulote este de 2.968 la mijloacele copiilor și persoanelor.

Utilizarea opțiunii dydx calculează diferența de număr așteptat între camper = 0 și camper = 1 în timp ce încă deține copil la media sa de .684 și persoane la media sa de 2.528.

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

diferența dintre numărul de pești capturați de rulote și noncamperi este de 1.679, ceea ce estesemnificativă din punct de vedere statistic.

o ultimă comandă marje va da numărul așteptat pentru valorile copilului de la zero la trei la ambele niveluri ale camperului.

numărul estimat de pești capturați scade pe măsură ce numărul copiilor crește atât pentru persoanele cu, cât și pentru cele fără rulote.

un număr de indicatori de potrivire a modelului sunt disponibili utilizând comanda fitstat, care esteo parte din utilitățile spostado de J. Scott Long și Jeremy Freese (căutare spostado).

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

lucruri de luat în considerare

  • deoarece zip are atât un model de numărare, cât și un model logit, fiecare dintre cele două modele ar trebui să aibă predictori buni. Cele două modele nu trebuie neapărat să utilizeze aceiași predictori.
  • probleme de predicție perfectă, separare sau separare parțială pot apărea înpartea logistică a modelului umflat zero.
  • datele de numărare folosesc adesea variabile de expunere pentru a indica de câte ori s-ar fi putut întâmpla evenimentul. Puteți încorpora expunerea în modelul dvs. utilizând opțiunea expunere ().
  • nu se recomandă aplicarea modelelor Poisson umflate la zero pe eșantioane mici. Ceea ce constituie un eșantion mic nu pare să fie clar definitîn literatura de specialitate.
  • valorile Pseudo-R-squared diferă de OLS r-squareds, vă rugăm să consultați Întrebări Frecvente: Ce sunt pseudo R-squareds? pentru o discuție pe această temă.

a se vedea, de asemenea,

  • stata Online Manual
    • zip
  • comenzi stata înrudite
    • nbreg — regresie binomială negativă umflată la zero.
  • Cameron, A. Colin și Trivedi, P. K. (2009) Microeconometrie folosind stata. Stația de colegiu, TX: Stata Press.
  • Long, J. Scott, & Freese, Jeremy (2006). Modele de regresie pentru variabile dependente categorice folosind Stata (ediția a doua). Stația de colegiu, TX: Stata Press.
  • Lung, J. Scott (1997). Modele de regresie pentru variabile dependente categorice și limitate. Thousand Oaks, CA: publicații salvie.



+