共通の前提

  • カウントデータは一応、連続変数であるので普通のOLSをかけることが出来ないわけではない。
    ただ、OLSを用いて線形回帰分析をすると推定値は効率性が悪く(=標準誤差が大きくなる)、バイアスが生じ、一致性が保てない。
  • だから出てきました。ポアソン回帰
  • ポアソン回帰はイベントの発生の確率がポアソン分布に従うことを前提とする。
  • カウントデータの分析手法にはポアソン回帰以外にもいくつかあるが、ポアソン分布をベースとすることは変わりなし。

 

  • ここでポアソン分布の大事な性質
    • パラメータ mu が大きくなると分布は右方向へ移動する
    • 分散は mu と同じ。つまり、 Var(Y) = E(Y) = mu
    • パラメータ mu が大きくなるとイベントが起こらない確率( Pr(y=0) )が低くなる。
    • パラメータ mu が大きくなると分布は正規分布に近くなる
  • また、ポアソン分布においてイベントはお互いに独立である。
  • ここで2番の性質が、実際には異なることが多い。普通は分散がμより大きい場合が多い(overdispersion)。その時に使うのがNegative Binomial回帰分析である。
  • また0がめっちゃある時にはZero Inflated PoissonやZero Inflated Negative Binomial分析を使う。

 

ポアソン回帰分析

  • 解釈はわりと簡単。期待回数は
     mu_i = E(Y_i | X_i ) = exp(X_i beta)
  • もしイベントがy回起きる確率が知りたいなら
     Pr(Y_i | X_i ) = frac{ exp(- mu_i ) mu_i^Y }{ Y_i }
  • 誤差項の期待値はやはり0
  • カウントデータってだいたいそんなもんではあるが、やはり実際の観測値を見ると0が多いだろう。その場合はポアソン回帰結果の予測確率と実際の観測値の違いが出てくる。つまり、分館の不均一性(条件付き分散が条件付き平均値より大きい)により0周辺の予測能力が低い時がしばしばある。
    ⇒このような分散の不均一性があるときに使えるのが負の二項回帰分析
  • ただし、overdispersionであっても mu_i = E(Y_i | X_i ) = exp(X_i beta) なら推定値の一致性は保たれる(consistent)。しかし、有効性が低下、つまり標準誤差が不安定になる(inefficient) (Gourieroux et al. 1984)。とりわけ、標準誤差が過小推定されるバイアスが生じる(Cameron & Trivedi 1986)。

 

負の二項(Negative Binomial)回帰分析

ポアソンと何が違うか。

  • ポアソン分布は mu_i = exp(X_i beta) であるが、負の二項分布は mu_i^* = exp(X_i beta + varepsilon_i) である。 varepsilon  X とは独立している。この場合、負の二項分布の mu_i^*  mu_i^* = exp(X_i beta + varepsilon_i) = exp(X_i beta) exp(varepsilon_i) で分解でき、つまり、 mu_i^* = mu_i exp(varepsilon_i) になる。ここで exp(varepsilon_i)  delta とする。つまり delta = 1 の場合、負の二項分布とポアソン分布は一致する。もし delta が小さくなると mu^* の分布においてゼロが多くなる。
    ならばδはどのような分布にしたがっているか。それがガンマ( Gamma )分布である。
  • 負の二項分布の期待回数ポアソン分布と同じであるが、分散が違う。
    負の二項分布の分散は Var(Y_i | X_i) = mu_i frac{ 1 + mu_i }{ upsilon_i } = exp(X_i beta) frac{ 1 + mu_i }{ upsilon_i } である。ここでν(ニュー)はガンマ分布のパラメータである。
  • しかし、見ればわかるが upsilon ではなく upsilon_i である。個人ごとにνが変動するとあまり意味が無い(パラメータの数がサンプルサイズを超えてしまう)。したがって、全てのケースにおいて upsilon が同じだと仮定し、 upsilon = alpha^{-1} とする。( alpha > 0 )

解釈

  • 負の二項分布を推定するとαの推定値がでるが、もし統計的に有意でなかったら負の二項分布を利用する積極的な理由がなくなる。
    • Stataだと alpha = 0 という帰無仮説に対するLikelihood-ratio Testの結果が出るはず。それを見よう。
    • Rだと alpha ではなく theta がでる。 theta = frac{ 1} { alpha } だからすぐに計算できるはず。