Příklady nulové poissonovy regrese / analýzy dat stata

informace o verzi: kód pro tuto stránku byl testován ve stata 12.

Nulově nahuštěná Poissonova regrese se používá k modelování počtů dat, která mají přebytek nulových počtů. Dále teorie naznačuje, že nadbytečné nulyjsou generovány samostatným procesem od hodnot počtu a že nadbytečné nuly mohoubýt modelován nezávisle. Model zip má tedy dvě části, model Poissonova počtu a model logitpro předpovídání nadbytečných nul. Možná budete chtít zkontrolovat tyto stránky s ukázkami analýzy dat, Poissonovou regresí a logitovou regresí.

upozornění: účelem této stránky je ukázat, jak používat různé příkazy pro analýzu dat. Nezahrnuje všechny aspekty výzkumného procesu, od kterého se očekává, že vědci budou dělat. Nezahrnuje zejména čištění a ověřování dat, ověřování předpokladů, diagnostiku modelů a případné následné analýzy.

příklady nulové poissonovy regrese

Příklad 1.

správci škol studují docházkové chování středoškoláků během jednoho semestru na dvou školách. Docházka se měří podle počtu dnů nepřítomnosti a je předpovězena podle pohlaví studenta a standardizovaného skóre v matematice a jazykovém umění. Mnoho studentů nemá během semestru žádné absence.

příklad 2.

státní biologové divoké zvěře chtějí modelovat, kolik ryb loví rybáři ve státním parku. Návštěvníci se ptají, zda mají táborník, koliklidé byli ve skupině, byly ve skupině děti a kolik ryb bylo chyceno.Někteří návštěvníci neloví, ale neexistují žádné údaje o tom, zda osoba lovila nebo ne. Někteří návštěvníci, kteří rybařili, nechytili žádné ryby, takže v datech jsou nadbytečné nuly kvůli lidem, kteří nelovili.

popis dat

podívejme se na příklad 2 shora.

máme údaje o 250 skupinách, které šly do parku. Každá skupina se ptali, kolik ryb chytili (spočítat), kolik dětí bylo ve skupině (dítě), kolik lidí bylo ve skupině (osob), a zda nebo ne oni přinesli karavan do parku (camper).

kromě predikce počtu ulovených ryb existuje zájem o predikci existence nadbytečných nul, tj. nul, které nebyly pouhým důsledkem smůly. Budeme používat proměnné dítě, osoby, a táborník v našem modelu. Podívejme se na data.

analytické metody můžete zvážit

níže je uveden seznam některých analytických metod, se kterými jste se mohli setkat.Některé z uvedených metod jsou docela rozumné, zatímco jiné buď vypadly z laskavosti, nebo mají omezení.

  • nulová Poissonova regrese-zaměření této webové stránky.
  • Nulově nafouknutá negativní Binomická regrese-negativní Binomická regrese je lepší s rozptýlenými daty, tj. rozptyl mnohem větší než průměr.
  • běžné Počtové modely-Poissonovy nebo záporné binomické modely mohou být vhodnější, pokud neexistují žádné nadbytečné nuly.
  • OLS regrese-můžete se pokusit analyzovat tato data pomocí OLS regrese. Nicméně, countdata jsou vysoce nestandardní a nejsou dobře odhadnuty regresí OLS.

Zero-inflated Poissonova regrese

Budeme spouštět zip příkaz s dítětem a camper jako prediktory počty osob jako prediktor přebytečné nuly. Zahrnuli jsme možnost vuongkterý poskytuje test nulového nafouknutého modelu oproti standardnímu modelu poisson.

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

výstup vypadá velmi podobně jako výstup z OLS regrese:

  • Začíná s iterace log dává hodnoty log pravděpodobností startingwith model, který nemá žádné prediktory. Poslední hodnota v protokolu je konečná hodnotapravděpodobnosti protokolu pro celý model a opakuje se níže.
  • následuje informace o záhlaví. Na pravé straně je uveden počet použitých pozorování (250), počet nenulových pozorování (108) spolu s poměrem pravděpodobnosti chi-na druhou. To porovnává celý model s modelem bez prediktorů počtu, což dává rozdíl dvou stupňů volnosti. Následuje hodnota p pro chí-kvadrát. Model jako celek je statisticky významný.
  • Pod nadpisem najdete Poissonova regresní koeficienty pro každý počítat predikci variablesalong s standardní chyby, z-skóre, p-hodnoty a 95% intervaly spolehlivosti pro thecoefficients.
  • následují koeficienty logit pro proměnnou předpovídající nadbytečné nuly spolu s jejími standardními chybami, Z-skóre, P-hodnotami a intervaly spolehlivosti.
  • pod různými koeficienty najdete výsledky testu Vuong. Thevuongův test porovnává nulově nahuštěný model s běžným poissonovým regresním modelem.Významný z-test naznačuje, že model s nulovým nafouknutím je lepší.
  • Cameron and Trivedi (2009) doporučují robustní standardní chyby pro poissonovy modely.Model znovu spustíme s možností vce (robustní). Tuto možnost jsme nezahrnuli do prvního modelu, protože možnosti robustní a vuong nelze použít ve stejném modelu.

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

Nyní můžeme přejít ke specifikům jednotlivých výsledků.

  • použití Robustní volby vedlo k poměrně velké změně modelu chi-square, který je nyní Wald chi-square. Tato statistika je založena na log pseudo-pravděpodobnosti namísto log-pravděpodobnosti.
  • koeficienty pro dítě a táborníka lze interpretovat následovně:
    • pro každé zvýšení jednotky dítěte se očekávaný počet log proměnné odpovědi sníží o 1,043.
    • být karavanem zvyšuje očekávaný počet protokolů o .834.
  • koeficient nafouknutí pro osobynaznačuje, že pro každou jednotku se osobně zvýší pravděpodobnost nahuštěného nulového poklesu o .564.

můžeme použít okraje (představené v Stata 11), abychom pomohli pochopit náš model. Nejprve vypočítáme očekávané počty pro kategorickou proměnnou camper, zatímco držíme nepřetržité proměnné dítě na jeho střední hodnotě pomocí volby atmeans.

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

očekávaný počet ryb ulovených necampery je 1,289, zatímco u táborníků je to 2,968 u dětí a osob.

Pomocí dydx možnost vypočítá rozdíl v očekávaných počítá mezi camper = 0 a camper = 1, zatímco stále drží dítě v jeho mysli .684 a osoby v průměru 2.528.

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

rozdíl v počtu ryb ulovených táborníky a nekampiony je 1,679, což jestatisticky významné.

jeden poslední příkaz margins dá očekávané počty pro hodnoty dítěte od nuly do tří na obou úrovních karavanu.

očekávaný počet ulovených ryb klesá, protože Počet dětí stoupá jak pro lidi s táborníky, tak bez nich.

číslo modelu fit ukazatelů jsou k dispozici pomocí fitstat příkaz, který jedíl spostado utilities J. Scott Dlouho a Jeremy Freese (vyhledávání spostado).

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

Věci, aby zvážila

  • Protože zip má jak spočítat model a logit model, každý z těchto dvou modelů by měl mít dobré prediktory. Oba modely nemusí nutně používat stejné prediktory.
  • problémy dokonalé predikce, separace nebo částečné separace mohou nastat v logistické části nulově nafouknutého modelu.
  • údaje o počtu často používají proměnné expozice k označení počtu případů, kdy se událost mohla stát. Expozici můžete začlenit do svého modelu pomocí možnosti expozice ().
  • na malé vzorky se nedoporučuje používat nulově nahuštěné poissonovy modely. Zdá se, že to, co představuje malý vzorek, není jasně definovánov literatuře.
  • Pseudo-R-squared hodnoty se liší od OLS R-squareds, viz FAQ: Co jsou pseudo R-squareds? pro diskusi na toto téma.

Viz také

  • Stata Online Příručce
    • zip
  • Související Stata Příkazy
    • nbreg — zero-inflated negativní binomické regrese.
  • Cameron, a. Colin and Trivedi, P. K. (2009) Mikroekonometrie pomocí stata. College Station, TX: Stata Press.
  • Long, J. Scott, & Freese, Jeremy (2006). Regresní modely pro kategoricky závislé proměnné pomocí Stata (Second Edition). College Station, TX: Stata Press.
  • Long, J. Scott (1997). Regresní modely pro kategorické a omezené závislé proměnné. Thousand Oaks, že: Sage Publications.



+