ゼロ膨張ポアソン回帰/Stataデータ分析の例

バージョン情報:このページのコードはStata12でテストされました。

ゼロ膨張ポアソン回帰は、ゼロカウントを超えるカウントデータをモデル化するために使用されます。 さらに、理論は、過剰ゼロは、カウント値とは別のプロセスによって生成され、過剰ゼロは独立してモデル化することができることを示唆している。 したがって、zipモデルには、余分なゼロを予測するためのポアソン数モデルとロジットモデルの二つの部分があります。 これらのデータ分析のサンプルページ、ポアソン回帰、およびlogit回帰を確認することができます。

ご注意:このページの目的は、さまざまなデータ解析コマンドの使用方法を示すことです。 これは、研究者が行うことが期待されている研究プロセスのすべての側面をカバーしていません。 特に、データのクリーニングと検証、仮定の検証、モデル診断、および潜在的なフォローアップ分析はカバーしていません。

ゼロ膨張ポアソン回帰の例

例1.

学校管理者は、二つの学校で一学期にわたって高校の後輩の出席行動を研究します。 出席は欠席日数によって測定され、学生の性別によって予測され、数学と言語芸術の標準化されたテストスコアです。 多くの学生は学期中に欠席していません。

例2.

州立野生動物の生物学者は、州立公園で漁師によって捕獲されている魚の数をモデル化したいと考えています。 訪問者は、彼らがキャンピングカーを持っているかどうか、どのように多くの人々はグループにいた、グループに子供がいた、そして何匹の魚が捕獲されたか。一部の訪問者は釣りをしませんが、人が釣りをしたかどうかに関するデータはありません。 魚をした訪問者は魚を捕まえなかったので、魚をしなかった人々のためにデータに余分なゼロがあります。

データの説明

上から例2を追求してみましょう。

公園に行った250グループのデータがあります。 各グループは、彼らがキャッチしたどのように多くの魚(カウント)、どのように多くの子供たちがグループ(子供)にいた、どのように多くの人々(人)にいた、と彼らは公園(キャンピングカー)にキャンピングカーを持ってきたかどうかについて疑問視されました。

捕獲された魚の数を予測することに加えて、過剰ゼロ、すなわち単に不運な釣りの結果ではなかったゼロの存在を予測することに関心があります。 モデルでは、変数child、persons、およびcamperを使用します。 データを見てみましょう。

分析方法あなたが考えるかもしれない

以下は、あなたが遭遇したかもしれないいくつかの分析方法のリストです。リストされている方法のいくつかは非常に合理的ですが、他の方法は好意から落ちたり、制限があります。

  • ゼロ膨張ポアソン回帰-このwebページの焦点。
  • ゼロ膨張した負の二項回帰-負の二項回帰は、分散したデータ、すなわち平均よりもはるかに大きい分散で優れています。
  • 通常のカウントモデル–余分なゼロがない場合、ポアソンまたは負の二項モデルはより適切かもしれません。
  • OLS回帰–OLS回帰を使用してこれらのデータを分析することができます。 しかし、countdataは非常に非正規であり、OLS回帰によって十分に推定されていません。

ゼロ膨張ポアソン回帰

childとcamperをカウントの予測子として、personsを過剰ゼロの予測子としてzipコマンドを実行します。 ゼロ膨張モデルと標準ポアソンモデルの検定を提供するvuongオプションが含まれています。

zip count child camper, inflate(persons) vuongFitting constant-only model:Iteration 0: log likelihood = -1347.807 Iteration 1: log likelihood = -1315.5343 Iteration 2: log likelihood = -1126.3689 Iteration 3: log likelihood = -1125.5358 Iteration 4: log likelihood = -1125.5357 Iteration 5: log likelihood = -1125.5357 Fitting full model:Iteration 0: log likelihood = -1125.5357 Iteration 1: log likelihood = -1044.8553 Iteration 2: log likelihood = -1031.8733 Iteration 3: log likelihood = -1031.6089 Iteration 4: log likelihood = -1031.6084 Iteration 5: log likelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit LR chi2(2) = 187.85Log likelihood = -1031.608 Prob > chi2 = 0.0000------------------------------------------------------------------------------ count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .0999883 -10.43 0.000 -1.238812 -.846865 1.camper | .8340222 .0936268 8.91 0.000 .650517 1.017527 _cons | 1.597889 .0855382 18.68 0.000 1.430237 1.76554-------------+----------------------------------------------------------------inflate | persons | -.5643472 .1629638 -3.46 0.001 -.8837503 -.244944 _cons | 1.297439 .3738522 3.47 0.001 .5647022 2.030176------------------------------------------------------------------------------Vuong test of zip vs. standard Poisson: z = 3.57 Pr>z = 0.0002

出力はOLS回帰からの出力に非常によく似ています:

  • 予測子を持たないモデルで開始する対数尤度の値を与える反復対数で始まります。 対数の最後の値は、完全モデルの対数尤度の最終値であり、以下で繰り返されます。
  • 次はヘッダ情報です。 右側では、使用される観測値の数(250)、非ゼロの観測値の数(108)が尤度比カイ二乗とともに与えられます。 これにより、完全なモデルとカウント予測子のないモデルが比較され、2つの自由度の差が得られます。 これに続いて、カイ二乗のp値が続きます。 このモデルは、全体として、統計的に有意である。
  • ヘッダーの下には、標準誤差、zスコア、p値、および効果の95%信頼区間を持つ各カウント予測変数のポアソン回帰係数があります。
  • 以下は、標準誤差、zスコア、p値、信頼区間とともに過剰ゼロを予測する変数のロジット係数です。
  • さまざまな係数の下にVuong検定の結果があります。 Vuong検定は、ゼロ膨張モデルを通常のポアソン回帰モデルと比較します。有意なz検定は、ゼロ膨張モデルの方が優れていることを示します。
  • Cameron and Trivedi(2009)は、ポアソンモデルのロバスト標準誤差を推奨しています。Vce(robust)オプションを使用してモデルを再実行します。 Robustオプションとvuongオプションは同じモデルでは使用できないため、最初のモデルにはこのオプションを含めませんでした。

zip count child i.camper, inflate(persons) vce(robust)Fitting constant-only model:Iteration 0: log pseudolikelihood = -1347.807 Iteration 1: log pseudolikelihood = -1315.5343 Iteration 2: log pseudolikelihood = -1126.3689 Iteration 3: log pseudolikelihood = -1125.5358 Iteration 4: log pseudolikelihood = -1125.5357 Iteration 5: log pseudolikelihood = -1125.5357 Fitting full model:Iteration 0: log pseudolikelihood = -1125.5357 Iteration 1: log pseudolikelihood = -1044.8553 Iteration 2: log pseudolikelihood = -1031.8733 Iteration 3: log pseudolikelihood = -1031.6089 Iteration 4: log pseudolikelihood = -1031.6084 Iteration 5: log pseudolikelihood = -1031.6084 Zero-inflated Poisson regression Number of obs = 250 Nonzero obs = 108 Zero obs = 142Inflation model = logit Wald chi2(2) = 7.25Log pseudolikelihood = -1031.608 Prob > chi2 = 0.0266------------------------------------------------------------------------------ | Robust count | Coef. Std. Err. z P>|z| -------------+----------------------------------------------------------------count | child | -1.042838 .3893772 -2.68 0.007 -1.806004 -.2796731 1.camper | .8340222 .4076029 2.05 0.041 .0351352 1.632909 _cons | 1.597889 .2934631 5.44 0.000 1.022711 2.173066-------------+----------------------------------------------------------------inflate | persons | -.5643472 .2888849 -1.95 0.051 -1.130551 .0018567 _cons | 1.297439 .493986 2.63 0.009 .3292445 2.265634------------------------------------------------------------------------------

これで、個々の結果の詳細に進むことができます。

  • ロバスト-オプションを使用すると、モデルのカイ二乗がかなり大きく変更され、現在はWaldカイ二乗となっています。 この統計は、対数尤度ではなく対数疑似尤度に基づいています。
  • childとcamperの係数は次のように解釈できます:
    • 子の単位増加ごとに、応答変数の期待ログ数は1.043減少します。
    • キャンピングカーであることは、予想されるログ数を増加させます。834.
  • personssuggestsのための膨脹させた係数は各単位のために膨脹させたゼロ減少の丸太の確率人で増加することを。564.

マージン(Stata11で導入)を使用して、モデルを理解することができます。 最初に、atmeansオプションを使用して、continuous変数の子をその平均値に保持しながら、categorical変数camperの期待度数を計算します。

margins camper, atmeansAdjusted predictions Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()at : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. z P>|z| -------------+---------------------------------------------------------------- camper | 0 | 1.289132 .4393168 2.93 0.003 .4280866 2.150177 1 | 2.968305 .619339 4.79 0.000 1.754423 4.182187------------------------------------------------------------------------------

非キャンパーによって捕獲された魚の数の予想数は1.289であり、キャンパーにとっては子供と人の手段では2.968である。

dydxオプションを使用すると、camper=0とcamper=1の間の予想されるカウントの差を計算し、childをその平均で保持します。684と2.528のその平均で人。

margins, dydx(camper) atmeansConditional marginal effects Number of obs = 250Model VCE : RobustExpression : Predicted number of events, predict()dy/dx w.r.t. : 1.camperat : child = .684 (mean) 0.camper = .412 (mean) 1.camper = .588 (mean) persons = 2.528 (mean)------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| -------------+---------------------------------------------------------------- 1.camper | 1.679173 .7754611 2.17 0.030 .1592975 3.199049------------------------------------------------------------------------------Note: dy/dx for factor levels is the discrete change from the base level.

キャンパーと非キャンパーによって捕獲された魚の数の差は1.679であり、統計的に有意である。

最後の1つのmarginsコマンドは、camperの両方のレベルでゼロから3までの子の値の期待されるカウントを与えます。

キャンパーの有無にかかわらず、子供の数が増えるにつれて、捕獲される魚の予想数は減少します。

j.Scott LongとJeremy Freese(search spostado)によるspostadoユーティリティの一部であるfitstatコマンドを使用して、多数のモデル適合インジケータを使用できます。

fitstatMeasures of Fit for zip of countLog-Lik Intercept Only: -1127.023 Log-Lik Full Model: -1031.608D(244): 2063.217 LR(4): 190.829 Prob > LR: 0.000McFadden's R2: 0.085 McFadden's Adj R2: 0.079ML (Cox-Snell) R2: 0.534 Cragg-Uhler(Nagelkerke) R2: 0.534AIC: 8.301 AIC*n: 2075.217BIC: 715.980 BIC': -168.743BIC used by Stata: 2090.824 AIC used by Stata: 2073.217

考慮すべき事項

  • zipにはcountモデルとlogitモデルの両方があるため、2つのモデルのそれぞれには適切な予測子が必要です。 2つのモデルでは、必ずしも同じ予測子を使用する必要はありません。
  • ゼロ膨張モデルの論理部分では、完全な予測、分離、または部分的な分離の問題が発生する可能性があります。
  • カウントデータは、多くの場合、イベントが発生した可能性のある回数を示すために露出変数を使用します。 Exposure()オプションを使用して、モデルにexposureを組み込むことができます。
  • 小さなサンプルにゼロ膨張ポアソンモデルを適用することは推奨されません。 小さなサンプルを構成するものは明確に定義されていないようです文献で。
  • 擬似R二乗値はOLSのR二乗値とは異なりますので、FAQ:擬似R二乗値とは何ですか?を参照してください。 この問題についての議論のために。

  • Stataオンラインマニュアル
    • zipも参照してください
  • 関連するStataコマンド
    • nbreg—ゼロ膨張した負の二項回帰。
  • キャメロン,A.コリンとTrivedi,P.K. (2009)stataを用いたミクロ経済学。 カレッジステーション、テキサス州:スタタプレス。
  • Long,J.Scott,&Freese,Jeremy(2006). Stataを使用したカテゴリ従属変数の回帰モデル(第二版)。 カレッジステーション、テキサス州:スタタプレス。
  • Long,J.Scott(1997). カテゴリ従属変数および限定従属変数の回帰モデル。 サウザンドオークス、カリフォルニア州:セージ出版物。



+