Null oppblåst Poisson Regresjon / Stata Data Analyse Eksempler

Versjon info: Koden for denne siden ble testet I Stata 12.

Null oppblåst poisson-regresjon brukes til å modellere telledata som har et overskudd av nulltall. Videre antyder teorien at overskytende nullergenereres av en egen prosess fra telleverdiene og at overskytende nuller kan modelleres uavhengig. Dermed har zip-modellen to deler, en poisson-tellemodell og logit-modellenfor å forutsi overskytende nuller. Du vil kanskje se gjennom Disse Dataanalyseeksemplesidene, Poisson-Regresjon og logit-Regresjon.

merk: formålet med denne siden er å vise hvordan du bruker ulike dataanalysekommandoer. Det dekker ikke alle aspekter av forskningsprosessen som forskere forventes å gjøre. Den omfatter særlig ikke datarensing og verifisering, verifisering av forutsetninger, modelldiagnostikk og potensielle oppfølgingsanalyser.

Eksempler på Null oppblåst Poisson-regresjon

Eksempel 1.

Skoleledere studere oppmøte oppførsel av high school juniorer over ett semester på to skoler. Oppmøte måles etter antall dager fraværende og er spådd av kjønn av studenten og standardisert test score i matematikk og språk kunst. Mange studenter har ikke fravær i løpet av semesteret.

Eksempel 2.

de statlige dyreliv biologer ønsker å modellere hvor mange fisk blir fanget av fishermenat en state park. Besøkende blir spurt om de har en campingvogn, hvor mangefolk var i gruppen, var det barn i gruppen og hvor mange fisk ble fanget.Noen besøkende fisker ikke, men det er ingen data om en person fisket eller ikke. Somebesøkende som gjorde fisk ikke fange noen fisk så det er overflødig nuller i dataene på grunn av folk som ikke fisk.

Beskrivelse av dataene

la Oss forfølge Eksempel 2 ovenfra.

vi har data om 250 grupper som gikk til en park. Hver gruppe ble spurt om hvor mange fisk de fanget( telle), hvor mange barn var i gruppen( barn), hvor mange mennesker var i gruppen( personer), og om de brakte en campingvogn til parken (campingvogn).

i tillegg til å forutsi antall fisk fanget, er det interesse å forutsi eksistensen av overskytende nuller, det vil si nullene som ikke bare var et resultat av uflaksfiske. Vi vil bruke variablene barn, personer og campingvogn i vår modell. La oss se på dataene.

Analysemetoder du kan vurdere

Nedenfor er en liste over noen analysemetoder du kan ha støtt på.Noen av metodene som er oppført er ganske rimelig, mens andre har enten falt i unåde eller har begrensninger.

  • Null oppblåst Poisson-Regresjon-fokus på denne nettsiden.
  • Null oppblåst Negativ Binomial Regresjon-Negativ binomial regresjon gjør det bedre med over spredte data, dvs. varians mye større enn gjennomsnittet.
  • Vanlige Tellemodeller-Poisson eller negative binomiske modeller kan være mer passende hvis det ikke er noen overskytende nuller.
  • OLS Regresjon – du kan prøve å analysere disse dataene ved HJELP AV OLS regresjon. Telledata er imidlertid svært ikke-normale og er ikke godt estimert AV OLS-regresjon.

Null oppblåst Poisson regresjon

vi vil kjøre zip-kommandoen med barn og camper som prediktorer av tellingene, personer som prediktor for overskytende nuller. Vi har tatt med vuong-alternativetsom gir en test av den nulloppblåste modellen mot standard poisson-modellen.

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

utgangen ser veldig ut som utgangen fra EN OLS-regresjon:

  • Begynner med iterasjonsloggen som gir verdiene til loggen sannsynligheter startingwith en modell som ikke har noen prediktorer. Den siste verdien i loggen er den endelige verdienav loggsannsynligheten for hele modellen og gjentas nedenfor.
  • Neste kommer overskriftsinformasjonen. På høyre side er antall observasjoner brukt (250), antall ikke-null observasjoner (108) gitt sammen med sannsynlighetsforholdet chi-squared. Dette sammenligner hele modellen med en modell uten tellespådommer, noe som gir en forskjell på to frihetsgrader. Dette etterfølges av p-verdien for chi-torget. Modellen som helhet er statistisk signifikant.
  • Under overskriften finner Du Poisson-regresjonskoeffisientene for hvert av tellingene som forutsier variablersammen med standardfeil, z-score, p-verdier og 95% konfidensintervaller for koeffisientene.
  • Følgende er logit koeffisienter for variabelen forutsi overskytende nuller alongwith sine standard feil, z-score, p-verdier og konfidensintervaller.
  • under de ulike koeffisientene finner du resultatene av Vuong-testen. TheVuong test sammenligner null-oppblåst modell med en vanlig poisson regresjonsmodell.En signifikant z-test indikerer at den nulloppblåste modellen er bedre.
  • Cameron and Trivedi (2009) anbefaler robuste standardfeil for poisson-modeller.Vi vil kjøre modellen på nytt med alternativet vce (robust). Vi inkluderte ikke dette alternativet i den første modellen fordi robuste og vuong-alternativer ikke kan brukes i samme modell.

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

Nå kan vi gå videre til detaljene i de enkelte resultatene.

  • bruk av det robuste alternativet har resultert i en ganske stor endring i modellen chi-square, som nå Er En Wald chi-square. Denne statistikken er basert på logg pseudo-likelihoods i stedet for log-likelihoods.
  • koeffisientene for barn og campingvogn kan tolkes som følger:
    • for hver enhetsøkning av barn reduseres det forventede loggantallet for responsvariabelen med 1,043.
    • Å Være en campingvogn øker forventet loggantall med .834.
  • oppblåsningskoeffisienten for personerantyder at for hver enhet øker i person loggoddsene for en oppblåst null reduseres med .564.

vi kan bruke margene (introdusert I Stata 11) for å forstå vår modell. Vi vil først beregne de forventede tellingene for den kategoriske variable camper mens du holder thecontinuous variable child på sin middelverdi ved hjelp av atmeans alternativet.

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

forventet telling for antall fisk fanget av noncampers er 1.289 mens for bobiler er det 2,968 ved hjelp av barn og personer.

ved å bruke dydx-alternativet beregner du forskjellen i forventet antall mellom camper = 0 og camper = 1 mens du fortsatt holder barnet i gjennomsnitt.684 og personer med sitt gjennomsnitt på 2.528.

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

forskjellen i antall fisk fanget av bobiler og noncampers er 1.679, som erstatistisk signifikant.

en siste marginer-kommando vil gi forventet antall verdier for barn fra null til tre på begge nivåer av camper.

forventet antall fisk fanget går ned som antall barn går opp for både personer med og uten bobiler.

en rekke modellpassindikatorer er tilgjengelige ved hjelp av kommandoen fitstat, som er en del av spostado-verktøyene Av J. Scott Long og Jeremy Freese (søk spostado).

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

Ting å vurdere

  • siden zip har både en tellemodell og en logit-modell, bør hver av de to modellene ha gode prediktorer. De to modellene trenger ikke nødvendigvis å bruke de samme prediktorene.
  • Problemer med perfekt prediksjon, separasjon eller delvis separasjon kan forekomme i den logistiske delen av den nulloppblåste modellen.
  • Telledata bruker ofte eksponeringsvariabler for å angi hvor mange ganger hendelsen kunne ha skjedd. Du kan innlemme eksponering i modellen ved å bruke alternativet eksponering ().
  • det anbefales ikke at nulloppblåste poisson-modeller brukes på små prøver. Hva som utgjør en liten prøve, synes ikke å være klart definerti litteraturen.
  • Pseudo-r-squared verdier skiller SEG fra OLS R-squareds, vennligst se FAQ: Hva er pseudo R-squareds? for en diskusjon om dette problemet.

Se også

  • Stata Online Manual
    • zip
  • Relaterte Stata Kommandoer
    • nbreg-null oppblåst negativ binomial regresjon.
  • Cameron, A. Colin Og Trivedi, P. K. (2009) Den Norske kirke. College Station, TX:Stata Press.
  • Lang, J. Scott, & Freese, Jeremy (2006). Regresjonsmodeller For Kategoriske Avhengige Variabler Ved Bruk Av Stata (Andre Utgave). College Station, TX:Stata Press.
  • Lang, J. Scott (1997). Regresjonsmodeller For Kategoriske Og Begrensede Avhengige Variabler. Thousand Oaks, CA: Sage Publikasjoner.



+