Version info: kode for denne side blev testet i Stata 12.
nul-oppustet poisson-regression bruges til at modellere tælledata, der har et overskud på nulantal. Yderligere antyder teorien, at overskydende nulgenereres ved en separat proces fra tælleværdierne, og at de overskydende nuller kanmodelleres uafhængigt. Lynlåsmodellen har således to dele, en poisson-tællemodel og logit-modellentil forudsigelse af overskydende nuller. Du ønsker måske at gennemgå disse dataanalyse eksempel sider, Poisson Regression andLogit Regression.
Bemærk venligst: formålet med denne side er at vise, hvordan du bruger forskellige dataanalysekommandoer. Det dækker ikke alle aspekter af den forskningsproces, som forskere forventes at gøre. Den omfatter navnlig ikke datarensning og-verifikation, verifikation af antagelser, modeldiagnostik og potentielle opfølgningsanalyser.
eksempler på nul-oppustet Poisson-regression
eksempel 1.
skoleadministratorer studerer deltagelsesadfærd hos gymnasieelever over et semester på to skoler. Deltagelse måles efter antal fraværende dage og forudsiges af den studerendes køn og standardiserettest score inden for matematik og sprogkunst. Mange studerende har ingen fravær i løbet af semesteret.
eksempel 2.
de statslige dyrelivsbiologer ønsker at modellere, hvor mange fisk der fanges af fiskerei en statspark. Besøgende bliver spurgt, om de har en autocamper, hvor mangefolk var i gruppen, var der børn i gruppen og hvor mange fisk der blev fanget.Nogle besøgende fisker ikke, men der er ingen data om, hvorvidt en person fiskede eller ej. Nogle besøgende, der fiskede, fangede ikke nogen fisk, så der er overskydende nuller i dataene på grund af de mennesker, der ikke fiskede.
beskrivelse af dataene
lad os forfølge eksempel 2 ovenfra.
vi har data om 250 grupper, der gik til en park. Hver gruppe blev spurgt om, hvor mange fisk de fangede (tæller), hvor mange børn der var i gruppen (barn), hvor mange mennesker der var i gruppen (personer), og om de bragte en autocamper til parken (autocamper) eller ej.
ud over at forudsige antallet af fangede fisk er der interesse i at forudsige eksistensen af overskydende nuller, dvs.de nuller, der ikke blot var et resultat af uheldsfiskeri. Vi vil bruge variablerne barn, personer, og autocamper i vores model. Lad os se på dataene.
analysemetoder du kan overveje
nedenfor er en liste over nogle analysemetoder, du måske er stødt på.Nogle af de nævnte metoder er ret rimelige, mens andre enten er faldet ud af favør eller har begrænsninger.
- nul-oppustet Poisson Regression – fokus på denne side.
- nul-oppustet negativ Binomial Regression – negativ binomial regression klarer sig bedre medover spredte data, dvs.varians meget større end gennemsnittet.
- almindelige Tællemodeller – Poisson eller negative binomiale modeller kan være merepassende, hvis der ikke er overskydende nuller.
- OLS Regression – du kan prøve at analysere disse data ved hjælp af OLS regression. Imidlertid er countdata meget ikke-normale og estimeres ikke godt af OLS-regression.
nul-oppustet Poisson-regression
vi kører lynkommandoen med barn og autocamper som forudsigere for tællingerne,personer som forudsigelse for de overskydende nuller. Vi har inkluderet Vuong-mulighedensom giver en test af den nul-oppustede model versus standard poisson-modellen.
zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002
output ligner meget output fra en OLS-regression:
- begynder med iterationsloggen, der giver værdierne for logens sandsynligheder, der starter med en model, der ikke har nogen forudsigere. Den sidste værdi i loggen er den endelige værdiaf log sandsynligheden for den fulde model og gentages nedenfor.
- næste kommer header information. På højre side er antallet af anvendte observationer (250), antallet af ikke-nul observationer (108) angivet sammen med sandsynlighedsforholdet chi-kvadreret. Dette sammenligner den fulde model med en model uden tælleprediktorer, hvilket giver en forskel på to frihedsgrader. Dette efterfølges af p-værdien for chi-pladsen. Modellen er som helhed statistisk signifikant.
- under overskriften finder du poisson-regressionskoefficienterne for hver af tællerne, der forudsiger variablersammen med standardfejl, å-score, p-værdier og 95% konfidensintervaller forkoefficienterne.
- efter disse er logit-koefficienter for variablen, der forudsiger overskydende nuller sammen med dens standardfejl, å-score, p-værdier og konfidensintervaller.
- under de forskellige koefficienter finder du resultaterne af Vuong-testen. TheVuong-testen sammenligner den nul-oppustede model med en almindelig poisson-regressionsmodel.En signifikant s-test indikerer, at den nul-oppustede model er bedre.
Cameron og Trivedi (2009) anbefaler robuste standardfejl til poisson-modeller.Vi kører modellen igen med VCE (robust). Vi inkluderede ikke denne mulighedi den første model, fordi robuste og vuong-indstillinger ikke kan bruges i den samme model.
zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------
nu kan vi gå videre til detaljerne i de enkelte resultater.
- brug af den robuste mulighed har resulteret i en ret stor ændring i modellen chi-firkant,som nu er en Vald chi-firkant. Denne statistik er baseret på Log pseudo-sandsynligheder i stedet for log-sandsynligheder.
- koefficienterne for barn og autocamper kan fortolkes som følger:
- for hver enhedsforøgelse af barn falder det forventede logantal for responsvariablen med 1,043.
- at være autocamper øger det forventede logantal med .834.
- oppustningskoefficienten for personerforeslår, at for hver enhed øges i person log odds for et oppustet nul fald med .564.
vi kan bruge margenerne (introduceret i Stata 11) til at hjælpe med at forstå vores model. Vi beregner først de forventede tællinger for den kategoriske variable autocamper, mens vi holder det kontinuerlige variable barn til dets middelværdi ved hjælp af indstillingen atmeans.
margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------
det forventede antal fisk fanget af ikke-campister er 1.289, mens det for campister er2.968 ved hjælp af børn og personer.
brug af dydksindstillingen beregner forskellen i forventede tællinger mellem camper = 0 og camper = 1, mens barnet stadig holdes i gennemsnit .684 og personer i gennemsnit på 2.528.
margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.
forskellen i antallet af fisk fanget af campister og noncampers er 1.679, hvilket erstatistisk signifikant.
en sidste margen kommando vil give de forventede tæller for værdier af barn fra nul til tre på begge niveauer af camper.
det forventede antal fangede fisk falder, da antallet af børn stiger for både mennesker med og uden campister.
en række model fit indikatorer er tilgængelige ved hjælp af fitstat kommandoen, som erEn del af spostado utilities af J. Scott Long og Jeremy Freese (søg spostado).
fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217
ting at overveje
- da lyn har både en tællemodel og en logit-model, skal hver af de to modeller have gode forudsigere. De to modeller behøver ikke nødvendigvis at bruge de samme forudsigere.
- problemer med perfekt forudsigelse, adskillelse eller delvis adskillelse kan forekomme ilogistisk del af den nul-oppustede model.
- Tælledata bruger ofte eksponeringsvariabler til at angive antallet af gange, begivenheden kunne være sket. Du kan indarbejde eksponering i din model ved at bruge indstillingen eksponering ().
- det anbefales ikke, at nul-oppustede poisson-modeller anvendes på små prøver. Hvad der udgør en lille prøve synes ikke at være klart definereti litteraturen.
- Pseudo-r-kvadrerede værdier adskiller sig fra OLS R-kvadrater, se Ofte stillede spørgsmål: Hvad er pseudo R-kvadrater? til en diskussion om dette spørgsmål.
Se også
- Stata Online Manual
- lynlås
- relaterede stata kommandoer
- nbreg — nul-oppustet negativ binomial regression.
- Cameron, A. Colin og Trivedi, P. K. (2009) Mikroøkonometri ved hjælp af stata. College Station, t: Stata Press.
- Lang, J. Scott, & Freese, Jeremy (2006). Regressionsmodeller for kategoriske afhængige variabler ved hjælp af Stata (anden udgave). College Station, t: Stata Press.
- Lang, J. Scott (1997). Regressionsmodeller for kategoriske og begrænsede afhængige variabler. Thousand Oaks, CA: Sage publikationer.