Nulla felfújt Poisson regresszió / Stata adatelemzési példák

Version info: Az oldal kódját a Stata 12-ben teszteltük.

nulla felfújt poisson regressziót használnak a nullát meghaladó számlálási adatok modellezésére. Ezenkívül az elmélet azt sugallja, hogy a felesleges nullákat a számlálási értékektől külön folyamat generálja, a felesleges nullákat pedig függetlenül lehet modellezni. Így a zip modell két részből áll, a poisson count modellből és a logit modellből, amely a nullák feleslegének előrejelzésére szolgál. Érdemes áttekinteni ezeket az adatelemzési Példaoldalakat, a Poisson regressziót és a logit regressziót.

kérjük, vegye figyelembe: ennek az oldalnak az a célja, hogy bemutassa a különböző adatelemzési parancsok használatát. Nem terjed ki a kutatási folyamat minden aspektusára, amelyet a kutatóktól elvárnak. Nem terjed ki különösen az adatok tisztítására és ellenőrzésére, a feltételezések ellenőrzésére, a modelldiagnosztikára és a lehetséges nyomon követési elemzésekre.

példák nulla felfújt Poisson regresszióra

1.példa.

az iskolaigazgatók tanulmányozzák a középiskolai juniorok látogatottsági viselkedését egy félév alatt két iskolában. A részvételt a hiányzó napok számával mérik, és a hallgató neme és a matematikai és nyelvi Művészetek standardizált teszteredményei alapján jósolják. Sok diáknak nincs hiányzása a félév során.

2. példa.

az állami vadon élő biológusok azt szeretnék modellezni, hogy hány halat fognak a halászok egy állami parkban. A látogatókat megkérdezik, hogy van-e lakókocsijuk, hány ember volt a csoportban, voltak-e gyerekek a csoportban, és hány halat fogtak.Néhány látogató nem halászik, de nincs adat arról, hogy egy személy halászott-e vagy sem. Somevisitors aki nem hal nem fogott halat, így vannak felesleges nullák az adatokat, mert az emberek, hogy nem hal.

az adatok leírása

folytassuk a 2.példát felülről.

250 csoportról van adatunk, akik egy parkba mentek. Minden csoportot megkérdeztek arról, hogy hány halat fogtak (számolnak), hány gyermek volt a csoportban (gyermek), hány ember volt a csoportban (személyek), és hoztak-e lakókocsit a parkba (lakókocsi).

a kifogott halak számának előrejelzése mellett érdekes a nullák túlzott létének előrejelzése is, azaz azok a nullák, amelyek nem egyszerűen a balszerencsés halászat eredményei voltak. Modellünkben a child, persons és camper változókat fogjuk használni. Nézzük meg az adatokat.

elemzési módszerek érdemes megfontolni

az alábbiakban felsorolunk néhány elemzési módszert, amelyekkel esetleg találkozott.A felsorolt módszerek némelyike meglehetősen ésszerű, míg mások vagy nem részesültek előnyben, vagy korlátozottak.

  • nulla felfújt Poisson regresszió-a hangsúly ezen a weboldalon.
  • nulla felfújt negatív binomiális regresszió-a negatív binomiális regresszió jobban működik a szétszórt adatok felett, azaz az átlagnál sokkal nagyobb szórásnégyzet.
  • rendes Gróf modellek – Poisson vagy negatív binomiális modellek lehetnek többmegfelelő, ha nincsenek felesleges nullák.
  • OLS regresszió-megpróbálhatja elemezni ezeket az adatokat OLS regresszióval. A számadatok azonban nagyon nem normálisak, és az OLS regresszió alapján nem becsülhetők meg jól.

nulla-felfújt Poisson regresszió

a zip parancsot a child és a camper segítségével futtatjuk a számok előrejelzőjeként,a személyek pedig a nullák előrejelzőjeként. Beépítettük a vuong opciót, amely a nulla felfújt modell tesztelését biztosítja a standard poisson modellel szemben.

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

a kimenet nagyon hasonlít az OLS regresszió kimenetére:

  • az iterációs naplóval kezdődik, amely megadja a log likelihoods értékeit egy olyan modellel, amelynek nincs előrejelzője. A napló utolsó értéke a teljes modell log valószínűségének végső értéke, amelyet alább megismételünk.
  • ezután jön a fejléc információ. A jobb oldalon az alkalmazott megfigyelések számát (250), a nem nulla megfigyelések számát (108) adjuk meg a valószínűség arányával együtt chi-négyzet. Ez összehasonlítja a teljes modellt a számláló prediktorok nélküli modellel, két szabadságfok különbséget adva. Ezt követi a chi-négyzet p-értéke. A modell egésze statisztikailag szignifikáns.
  • a fejléc alatt megtalálja a Poisson regressziós együtthatókat az egyes számokhoz, amelyek előrejelzik a változókat a standard hibákkal, a z-pontszámokkal, a p-értékekkel és a 95% – os konfidenciaintervallumokkal együtt.
  • ezeket a Logit együtthatókat a változó előrejelzésére felesleges nullák együtt a standard hibák, z-pontszámok, p-értékek és konfidencia intervallumok.
  • a különböző együtthatók alatt megtalálja a Vuong teszt eredményeit. Avuong-teszt összehasonlítja a nulla felfújt modellt egy közönséges poisson regressziós modellel.A jelentős z-teszt azt jelzi, hogy a nulla felfújt modell jobb.
  • Cameron and Trivedi (2009) robusztus standard hibákat javasol a poisson modellekhez.A modellt újra futtatjuk a VCE (robusztus) opcióval. Ezt az opciót nem vettük fel az első modellbe, mert a robusztus és a Vuong opciók nem használhatók ugyanabban a modellben.

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

most áttérhetünk az egyes eredmények sajátosságaira.

  • a robusztus opció használata meglehetősen nagy változást eredményezett a modell chi-négyzetében,amely ma Wald chi-négyzet. Ez a statisztika a log ál-valószínűségeken alapul, nem pedig a log-valószínűségeken.
  • a gyermek és a lakóautó együtthatói a következőképpen értelmezhetők:
    • a gyermek minden egységnyi növekedése esetén a válaszváltozó várható naplózási száma 1,043-mal csökken.
    • lakóautónak lenni növeli a várható naplószámot.834.
  • a személyek felfújási együtthatójaazt javasolja, hogy minden egyes egység esetében a felfújt nulla naplózási esélyei növekedjenek.564.

a stata 11-ben bevezetett margókat használhatjuk modellünk megértéséhez. Először kiszámítjuk a camper kategorikus változó várható számát, miközben a folytonos child változót az atmeans opcióval az átlagértékén tartjuk.

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

a nem táborozók által kifogott halak várható száma 1,289, míg a táborozók esetében 2,968 a gyermekek és személyek esetében.

a dydx opció használatával kiszámítja a camper = 0 és a camper = 1 várható számbeli különbségét, miközben a child-et továbbra is az átlagán tartja .684 és személyek átlaga 2,528.

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

a táborozók és a nem táborozók által kifogott halak számának különbsége 1.679, ami statisztikailag jelentős.

egy utolsó margó parancs megadja a gyermek értékeinek várható számát nullától háromig a lakókocsi mindkét szintjén.

a kifogott halak várható száma csökken, mivel a gyermekek száma növekszik mind a táborozókkal, mind pedig anélkül.

a fitstat paranccsal számos modell illesztési mutató érhető el, amely J. Scott Long és Jeremy Freese spostado segédprogramjainak része (search spostado).

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

megfontolandó dolgok

  • mivel a zip-nek Mind számlálási, mind logit-modellje van, mindkét modellnek jó előrejelzővel kell rendelkeznie. A két modellnek nem feltétlenül kell ugyanazokat a prediktorokat használnia.
  • a tökéletes előrejelzés, az elválasztás vagy a részleges elválasztás problémái a nulla felfújt modell logikai részében fordulhatnak elő.
  • a számlálási adatok gyakran expozíciós változókat használnak annak jelzésére, hogy az esemény hányszor történhetett meg. Az expozíció() opcióval beépítheti az expozíciót a modellbe.
  • kis mintákra nem ajánlott nulla felfújt poisson modelleket alkalmazni. Úgy tűnik, hogy a kis minta nem egyértelműen meghatározhatóaz irodalomban.
  • a pszeudo-R-négyzet értékek eltérnek az OLS R-négyzetektől, kérjük, olvassa el a GYIK-ot: mik azok a pszeudo-R-négyzetek? a vita ebben a kérdésben.

Lásd még

  • Stata Online kézikönyv
    • zip
  • kapcsolódó Stata parancsok
    • nbreg-nulla felfújt negatív binomiális regresszió.
  • Cameron, A. Colin és Trivedi, P. K. (2009) Mikroökonometria stata segítségével. Főiskolai állomás, TX: Stata Press.
  • Hosszú, J. Scott, & Freese, Jeremy (2006). Regressziós modellek kategorikus függő változókhoz Stata használatával (második kiadás). Főiskolai állomás, TX: Stata Press.
  • Hosszú, J. Scott (1997). Regressziós modellek kategorikus és korlátozott függő változókhoz. Thousand Oaks, CA: Sage Publications.



+