Version info: tämän sivun koodi testattiin Statassa 12.
Nollakompensoitua poisson-regressiota käytetään mallintamaan laskutiedot, joissa on nollakokeiden ylitys. Lisäksi teoria esittää, että ylimääräinen zerosare syntyy erillinen prosessi lukuarvot ja että ylimääräinen nollia voidaan mallintaa itsenäisesti. Näin ollen zip-mallissa on kaksi osaa, poisson-laskentamalli ja logit-malli ylimääräisten nollien ennustamiseksi. Haluat ehkä tarkistaa nämä Data Analysis esimerkkisivut, Poisson regressio ja logit regressio.
huomaa: tämän sivun tarkoituksena on näyttää, miten käytetään erilaisia tietojen analysointikomentoja. Se ei kata kaikkia tutkimusprosessin näkökohtia, joita tutkijoiden odotetaan tekevän. Se ei kata etenkään tietojen puhdistusta ja todentamista, oletusten todentamista, mallidiagnostiikkaa ja mahdollisia seuranta-analyysejä.
Examples of zero-inflated Poisson regression
Example 1.
koulun ylläpitäjät tutkivat lukiojunioreiden läsnäolokäyttäytymistä yhden lukukauden aikana kahdessa koulussa. Läsnäolo mitataan poissaolopäivien lukumäärällä ja ennustetaan opiskelijan sukupuolen sekä matematiikan ja kielitaidon standardoitujen kokeiden pisteiden perusteella. Monilla opiskelijoilla ei ole poissaoloja lukukauden aikana.
Esimerkki 2.
valtion villieläinbiologit haluavat mallintaa, kuinka monta kalaa valtionpuistossa kalastetaan. Vierailijoilta kysytään, onko heillä asuntoauto, kuinka paljon ihmisiä ryhmässä oli, oliko ryhmässä lapsia ja kuinka paljon kalaa saatiin.Osa kävijöistä ei kalasta, mutta ei ole tietoa, kalastiko henkilö vai ei. Jotkut kalastajat eivät saaneet yhtään kalaa, joten tiedoissa on liikaa nollia, koska ihmiset eivät kalastaneet.
aineiston kuvaus
seurataan esimerkkiä 2 ylhäältä.
meillä on TIEDOT 250 ryhmästä, jotka menivät puistoon. Jokaiselta ryhmältä kysyttiin, kuinka monta kalaa he saivat (lasketaan), kuinka monta lasta ryhmässä oli (lapsi), kuinka monta ihmistä ryhmässä oli (henkilöitä) ja toivatko he retkeilyauton puistoon (retkeilijä).
pyydettyjen kalojen määrän ennustamisen lisäksi ollaan kiinnostuneita ennustamaan ylimääräisiä nollia eli nollia, jotka eivät johtuneet pelkästään huonon onnen kalastuksesta. Käytämme muuttujia lapsi, henkilöt ja asuntoauto mallissamme. Katsotaan dataa.
analyysimenetelmät, joita voit harkita
alla on luettelo mahdollisesti kohtaamistasi analyysimenetelmistä.Jotkut listatut menetelmät ovat varsin kohtuullisia, kun taas toiset ovat joko jääneet pois suosiosta tai niillä on rajoituksia.
- Zero-inflated Poisson Regression-the focus of this web page.
- nollakompensoitu negatiivinen Binomiregressio-negatiivinen binomiregressio toimii paremmin ilman hajanaisia tietoja, eli varianssi on paljon keskiarvoa suurempi.
- tavalliset laskentamallit – Poisson tai negatiiviset binomimallit saattavat olla tarkoituksenmukaisempia, jos ylimääräisiä nollia ei ole.
- OLS-regressio-voit yrittää analysoida näitä tietoja OLS-regression avulla. Kreivitiedot ovat kuitenkin hyvin epätavanomaisia, eikä niitä arvioida hyvin OLS-regressiolla.
Nollakompensoitu Poisson-regressio
suoritamme zip-komennon,jossa child ja camper ovat laskujen ennustajia, henkilöt ylimääräisten nollien ennustajia. Olemme sisällyttäneet vuong vaihtoehto, joka tarjoaa testin nolla-puhallettu malli verrattuna standardi poisson malli.
zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002
tuotos näyttää hyvin paljon OLS-regression tuotokselta:
- alkaa iterointilokista, joka antaa lokin arvot likelicies-alkumallilla, jolla ei ole ennustajia. Lokin viimeinen arvo on koko mallin log-todennäköisyyden lopullinen arvo ja se toistetaan alla.
- seuraavaksi tulee otsikkotiedot. Oikealla puolella ilmoitetaan käytettyjen havaintojen määrä (250), nollahavaintojen lukumäärä (108) sekä todennäköisyyssuhde chi-potenssiin. Tämä vertaa koko mallia malliin, jossa ei ole laskuennustajia, jolloin ero on kaksi vapausastetta. Tätä seuraa chi-neliön p-arvo. Malli on kokonaisuutena tilastollisesti merkittävä.
- otsikon alta löydät Poisson-regressiokertoimet jokaiselle laskijalle, joka ennustaa variablesalongia keskivirheineen, z-pisteet, p-arvot ja 95%: n luottamusvälit coefficienteille.
- näitä ovat logit-kertoimet muuttujalle, joka ennustaa ylimääräisiä nollia, sekä sen keskivirheet, z-pisteet, p-arvot ja luottamusvälit.
- eri kertoimien alta löydät Vuongin testin tulokset. Vuongin testissä verrataan nollatäytteistä mallia tavalliseen poisson-regressiomalliin.Merkittävä z-testi osoittaa, että nollalla täytetty malli on parempi.
Cameron ja Trivedi (2009) suosittelevat poisson-malleille järeitä keskivirheitä.Me uusitaan malli VCE (vankka) vaihtoehto. Emme sisällyttäneet tätä vaihtoehtoa ensimmäiseen malliin, koska vankkaa ja vuong-vaihtoehtoa ei voida käyttää samassa mallissa.
zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------
nyt voimme siirtyä yksittäisten tulosten yksityiskohtiin.
- vankan vaihtoehdon käyttäminen on johtanut melko suureen muutokseen chi-neliömallissa,joka on nykyään Wald chi-neliö. Tämä tilasto perustuu lokin näennäisyyteen tukkilaisuuden sijaan.
- lapsen ja kamreerin kertoimet voidaan tulkita seuraavasti:
- jokaista lapsen yksikkölisäystä kohti vastemuuttujan odotettu log-luku pienenee 1, 043: lla.
- kamreerina oleminen nostaa odotettua tukkimäärää.834.
- paisutuskerroin henkilöilläodottaa, että kunkin yksikön kasvaa henkilö log kertoimet paisutettu nolla lasku .564.
Voimme käyttää marginaaleja (otettu käyttöön Stata 11: ssä) mallimme ymmärtämiseen. Laskemme ensin kategorisen muuttujan asuntoauton odotetut luvut pitäen samalla jatkuvan muuttujan lapsen keskiarvossaan käyttäen atmeans-vaihtoehtoa.
margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------
muiden kuin leiriläisten pyydettyjen kalojen arvioitu määrä on 1,289, kun taas leiriläisten määrä on 2,968 lasten ja henkilöiden pyyntivälineillä.
käyttämällä dydx-vaihtoehtoa lasketaan odotettujen lukujen erotus camper = 0: n ja camper = 1: n välillä pitäen silti lasta keskiarvossaan .684 ja henkilöitä sen keskiarvo 2,528.
margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.
ero leiriläisten ja ei-leiriläisten pyytämien kalojen määrässä on 1,679, mikä onstatistisesti merkittävä.
yksi viimeinen marginaalikomento antaa lapsen odotetut arvot nollasta kolmeen asuntoauton molemmilla tasoilla.
odotettu pyydettyjen kalojen määrä laskee, kun lasten määrä kasvaa sekä leiriläisten kanssa että ilman.
useita model fit-osoittimia on saatavilla fitstat-komennolla, joka on J. Scott Longin ja Jeremy Freesen spostado-apuohjelmista (search spostado).
fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217
huomioitavia asioita
- koska zip: llä on sekä laskentamalli että logit-malli, kummassakin mallissa pitäisi olla hyvät ennustajat. Näissä kahdessa mallissa ei välttämättä tarvitse käyttää samoja ennustimia.
- täydellisen ennustamisen, erottumisen tai osittaisen erottumisen ongelmia voi esiintyä nollatäytteisen mallin logistisessa osassa.
- Laskentatiedoissa käytetään usein altistusmuuttujia osoittamaan, kuinka monta kertaa tapahtuma on voinut tapahtua. Voit sisällyttää valotuksen malliisi käyttämällä valotus () – vaihtoehtoa.
- nollatäytteisten poisson-mallien käyttöä pieniin näytteisiin ei suositella. Se, mikä muodostaa pienen otoksen, ei näytä olevan selvästi määritelty kirjallisuudessa.
- Pseudo-R-neliöarvot eroavat OLS: n R-neliöistä, katso FAQ: Mitä ovat pseudo-R-neliö? keskustelua tästä aiheesta.
Katso myös
- Stata Online Manual
- zip
- vastaavia Stata-käskyjä
- nbreg-nolla-inflated negative binomiregression.
- Cameron, A. Colin ja Trivedi, P. K. (2009) Microeconometrics using stata. College Station, TX: Stata Press.
- Long, J. Scott, & Freese, Jeremy (2006). Regressiomallit Kategorisista riippuvaisille muuttujille käyttäen Stataa (toinen painos). College Station, TX: Stata Press.
- Long, J. Scott (1997). Regressiomallit kategorisia ja rajoitettuja riippuvia muuttujia varten. Thousand Oaks, CA: Sage Publications.