0-팽창 푸아송 회귀 분석/상태 데이터 분석 예

버전 정보:이 페이지의 코드는 상태 12 에서 테스트되었습니다.

제로 팽창 푸아송 회귀는 초과 카운트가 0 인 카운트 데이터를 모델링하는 데 사용됩니다. 또한 이론에 따르면 초과 0 은 카운트 값과 별도의 프로세스에 의해 생성되며 초과 0 은 독립적으로 모델링 될 수 있습니다. 따라서 압축 모델에는 푸아송 수 모델과 로짓 모델의 두 부분이 있습니다.초과 0 을 예측합니다. 이러한 데이터 분석 예제 페이지,포아송 회귀 및 로그 회귀를 검토 할 수 있습니다.

참고:이 페이지의 목적은 다양한 데이터 분석 명령을 사용하는 방법을 보여주는 것입니다. 그것은 연구자가 할 것으로 예상되는 연구 과정의 모든 측면을 다루지 않습니다. 특히 데이터 정리 및 검증,가정 검증,모델 진단 및 잠재적 후속 분석은 다루지 않습니다.

제로 팽창 포아송 회귀의 예

예 1.

학교 관리자는 두 학교에서 한 학기 동안 고등학교 후배의 출석 행동을 연구합니다. 출석은 결석 일수로 측정되며 학생의 성별 및 수학 및 언어 예술에서 표준화 된 시험 점수에 의해 예측됩니다. 많은 학생들이 학기 중에 결석이 없습니다.

예 2.

주 야생 생물 학자들은 주립 공원에서 어부에게 얼마나 많은 물고기가 잡히고 있는지 모델링하려고합니다. 방문객은 캠프가 있는지,얼마나 많은 사람들이 그룹에 있었는지,그룹에 아이들이 있었는지,그리고 얼마나 많은 물고기가 잡혔는지 묻습니다.일부 방문자는 낚시를하지 않지만 사람이 낚시를했는지 여부에 대한 데이터는 없습니다. 물고기를 한 몇몇 방문자는 어떤 물고기든지 붙잡지 않았다 그래서 물고기에게 하지 않은 사람들 때문에 자료에 있는 과잉 0 가 있다.

데이터에 대한 설명

위의 예제 2 를 살펴보겠습니다.

우리는 공원에 간 250 그룹에 대한 데이터를 가지고 있습니다. 각 그룹은 그들이 잡은 얼마나 많은 물고기(카운트),그룹(어린이)에 얼마나 많은 아이들이 있는지,그룹(사람)에 얼마나 많은 사람들이 있는지,그리고 그들이 공원(캠프)에 캠핑을 가져 왔는지 여부에 대해 의문을 제기했습니다.

잡힌 물고기의 수를 예측하는 것 외에도,초과 0 의 존재,즉 단순히 불운 낚시의 결과가 아닌 0 의 존재를 예측하는 데 관심이 있습니다. 우리는 우리의 모델에 변수 자식,사람,그리고 캠프를 사용합니다. 의 데이터를 살펴 보자.

고려할 수 있는 분석 방법

다음은 몇 가지 분석 방법 목록입니다.나열 된 방법 중 일부는 매우 합리적인 반면 다른 호의에서 떨어진 또는 제한.

  • 제로 팽창 푸아송 회귀-이 웹 페이지의 초점.
  • 0-팽창 된 음수 이항 회귀-음수 이항 회귀는 분산 된 데이터,즉 평균보다 훨씬 큰 분산을 더 잘 수행합니다.
  • 일반 카운트 모델–초과 0 이없는 경우 포아송 또는 음수 이항 모델이 더 적절할 수 있습니다.
  • 올렉스 회귀 분석–올렉스 회귀 분석을 사용하여 이러한 데이터를 분석할 수 있습니다. 그러나 카운트 데이터는 매우 비 정상이며 올렉스 회귀에 의해 잘 추정되지 않습니다.

제로 팽창 푸아송 회귀

우리는 카운트의 예측 변수로 자식과 캠프와 우편 명령을 실행합니다,초과 0 의 예측 변수로 사람. 우리는 표준 푸아송 모델 대 제로 팽창 모델의 테스트를 제공하는 부옹 옵션을 포함했다.

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

출력은 다음과 매우 흡사합니다.:

  • 예측 변수가 없는 모델로 시작하는 로그 우도 값을 제공하는 반복 로그로 시작합니다. 로그의 마지막 값은 전체 모델에 대한 로그 우도의 최종 값이며 아래에서 반복됩니다.
  • 다음으로 헤더 정보가 온다. 오른쪽에는 사용 된 관측치 수(250),0 이 아닌 관측치 수(108)가 우도 비율 카이 제곱과 함께 제공됩니다. 이렇게 하면 전체 모형을 개수 예측 변수가 없는 모형과 비교하여 두 자유도의 차이가 발생합니다. 이 뒤에 피-카이-제곱에 대한 값. 이 모델은 전체적으로 통계적으로 중요합니다.
  • 헤더 아래에는 표준 오차,지-점수,피-값 및 동효율에 대한 95%신뢰 구간과 함께 변수를 예측하는 각 개수에 대한 포아송 회귀 계수가 있습니다.
  • 다음은 표준 오차,지-점수,피-값 및 신뢰 구간과 함께 초과 0 을 예측하는 변수에 대한 로짓 계수입니다.
  • 다양한 계수 아래에서 부옹 테스트 결과를 찾을 수 있습니다. 부옹 테스트는 제로 팽창 모델을 일반 포아송 회귀 모델과 비교합니다.중요한 지-테스트는 제로 팽창 모델이 더 낫다는 것을 나타냅니다.
  • 카메론과 트리 베디(2009)는 푸아송 모델에 대한 강력한 표준 오류를 권장합니다.이 옵션을 사용하여 모델을 다시 실행할 것입니다. 이 옵션을 첫 번째 모델에 포함하지 않았습니다.

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

이제 우리는 개별 결과의 세부 사항으로 이동할 수 있습니다.

  • 강력한 옵션을 사용하면 모델 카이 제곱에 상당히 큰 변화가 생겼습니다. 이 통계는 로그 유사 우도 대신 로그 유사 우도를 기반으로 합니다.
  • 자식 및 캠핑카의 계수는 다음과 같이 해석할 수 있습니다:
    • 자식의 각 단위 증가에 대해 응답 변수의 예상 로그 수는 1.043 만큼 감소합니다.
    • 캠프가 되면 예상 로그 수가 증가합니다.834.
  • 그만큼 사람에 대한 팽창 계수 각 단위에 대해 사람이 팽창 된 제로 감소의 로그 확률을 증가 시킨다는 것을 제안합니다.564.

여백을 사용하여 모델을 이해할 수 있습니다. 범주형 변수 캠핑카의 예상 개수를 계산하려면 연속형 변수 자식을 평균값으로 유지해야 합니다.

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

비캠퍼스에 의해 잡힌 물고기의 수에 대한 예상 수는 1.289 이고 야영자는 어린이와 사람의 수단에서 2.968 입니다.

캠핑카 옵션을 사용하면 캠핑카=0 과 캠핑카=1 사이의 예상 개수의 차이를 계산하지만 여전히 자식을 평균으로 유지합니다.684 의 평균에 사람 2.528.

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

캠프 참가자와 비 캠프 참가자에 의해 잡힌 물고기의 수의 차이는 1.679 입니다.통계적으로 중요합니다.

마지막 여백 명령은 캠프의 두 수준에서 0 에서 3 까지의 자식 값에 대한 예상 카운트를 제공합니다.

야영자 유무에 관계없이 어린이 수가 증가함에 따라 예상되는 물고기 수가 감소합니다.

많은 모델 적합 표시기는 적합 상태 명령을 사용하여 사용할 수 있습니다.

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

고려해야 할 사항

  • 우편 번호는 카운트 모델과 로짓 모델을 모두 가지고 있기 때문에,두 모델의 각 좋은 예측 변수가 있어야합니다. 두 모델이 반드시 동일한 예측 변수를 사용할 필요는 없습니다.
  • 완벽한 예측,분리 또는 부분 분리의 문제는 제로 팽창 모델의 물류 부분에서 발생할 수 있습니다.
  • 카운트 데이터는 종종 노출 변수를 사용하여 이벤트가 발생할 수 있는 횟수를 나타냅니다. 노출()옵션을 사용하여 모델에 노출을 통합할 수 있습니다.
  • 작은 샘플에는 0 팽창 푸아송 모델을 적용하지 않는 것이 좋습니다. 작은 샘플을 구성하는 것은 명확하게 정의되지 않은 것 같습니다.문헌에서.의사 제곱 값은 다음과 같습니다. 이 문제에 대한 토론.

참조

  • 0-팽창된 음의 이항 회귀분석.
    • 그 이유는 다음과 같습니다. (2009)태타를 이용한 미시 경제학. 칼리지 스테이션,텍사스:스타 타 프레스.2007 년 11 월 15 일,2008 년 12 월 15 일,2008 년 12 월 15 일,2008 년 12 월 15 일,2008 년 12 월 15 일,2008 년 12 월 15 일. 상태(제 2 판)를 사용하여 범주 형 종속 변수에 대한 회귀 모델. 칼리지 스테이션,텍사스:스타 타 프레스.
    • 롱,제이 스콧(1997). 범주형 및 제한 종속 변수에 대한 회귀 모형입니다. 사우 전드 옥스,캘리포니아:세이지 간행물.



    +