線形回帰分析(Linear Regression Analysis)

多重共線性

  • 多重共線性には完全(perpect)なものと不完全(imperpect)なものがある。完全な多重共線性は統計パッケージで分析を走らせることすらできない。不完全な多重共線性なら推定はできるが、推定量は0に近づき、説明されない分散が大きくなる事など不安定になる。

Imperfect multicollinearity does not pose any problems for the theory of the OLS estimators; indeed, a purpose of OLS is to sort out the independent influences of the various regressors when these regressors are potentially correlated.
-Stock and Watson “Introduction to Econometrics” p.244

Perfect multicollinearity is a problem that often signals the presence of a logical error. In contrast, imperfect multicollinearity is not necessarily an error, but rather just a feature of OLS, your data, and the question you are trying to answer.
– Stock and Watson “Introduction to Econometrics” p.245

  • 許容度(トレランス, t, tolerance):その変数をDVとし、他の変数をIVとして回帰分析した時のR2を1から引いたもの。
  • VIF:= 1 / 許容度
  • 共線性の基準としては・・・ [Link]

VIFは通常10以上を基準としているようですが、Fox(1997)はきちんと書いてませんが、 sqrt{textit{VIF}} > 2 で要チェックと考えているようです。そうするとVIF>4で要チェックの水準にあります。この水準だとだいたい重相関係数が0.9以上になるということです。Cohenらでも10の基準は高すぎると指摘して、p424 註16にVIF 6とか7, conditional index 15とか20という場合があることを言っている。同時に行動科学では10以上になることはまずないという指摘もあるので、論理的ミスをしないかぎりあまり心配することないことかもしれない。

Statisticians usually look at the VIF. If this is more than 10 for any variable, a multicollinearity problem may exist, and you may need to consider making an adjustment to your model
– Alan C. Acock. A Gentle Introduction to Stata. Revised 3rd Ed.

回帰分析の前提条件

独立変数に測定誤差がない。 推定誤差の独立性:残差と独立変数の相関を確認 (相関行列で確認→相関があってはいけない (r simeq 0))All independent variables(X1, X2, …, Xk) are quantitative or dichotomous, and the dependent variable, Y, is quantitative, continuous, and unbounded. Moreover, all variables are measured without error.

All independent variables have nonzero variance (i.e., each independent variable has some variation in value).

There is not perfect multicollinearity (i.e., there is no exact linear relationship between two or more of the independent variables).

At each set of values for the k independent variables, (X1j, X2j, …, Xkj), E(εj | X1j, X2j, …, Xkj) = 0 (i.e., the mean value of the error term is zero).

For each Xi, COV(Xij, εj) = 0 (i.e., each independent variable is uncorrelated with the error term).

At each set of values for the k independent variables, (X1j, X2j, …, Xkj), VAR(εj | X1j, X2j, …, Xkj) = σ2, where σ2 is a constant (i.e., the conditional variance of the error term is constant); this is known as the assumption of homoscedasticity.

For any two observations, (X1j, X2j, …, Xkj) and (X1h, X2h, …, Xkh), COV(εj, εh) = 0 (i.e., error terms for different observations are uncorrelated); this assumption is known as a lack of autocorrelation.

At each set of values for the k independent variables, εj is normally distributed.

William D. Berry(1993) Understanding Regression Assumptions (p.12)

  1. 推定誤差の正規性:残差の分布を確認 (ヒストグラムなど)
  2. 必要な独立変数がすべて投入されている:残差と相関のある変数の有無を確認(投入されていない変数と相関を確認し、有意なものがあれば投入しよう)
  3. 推定誤差の分散が一定(Homoscedasticity):独立変数と残差の散布図を確認(点がY=0の周辺に集まっている事)
  4. 独立変数と従属変数の関係が線形:独立変数と従属変数の散布図を確認 / 二乗項を入れることで非線形モデルが作られる。
  • 特に[2]と[5]を合わせて「i.i.d(Independently and Indenticaly Distributed)」と呼ぶ。[2]の場合は独立変数同士にも相関がない事が必要。
  • 誤差項の平均が0ではない時、片回帰係数はBLUE。しかし、切片に影響がある。
  • しかし分散不均一の場合は片回帰係数には影響がないものの、片回帰係数の標準誤差に影響があり、BLUEでなくなる。

 

誤差と残差の違い

  • 残差 : OLSで推定された予測値と観測値の差
  • 誤差 : 真の回帰式で推定された予測値と観測値の差
  • この違いは誤差と独立変数の相関がない事という回帰分析の前提に重要。
  • そもそもOLSによる\”残差\”と独立変数の間には相関があり得ないため。

 

非線形モデルを作るときの留意点

  • 二乗項を入れると共線性の問題が生じる。どうすればいいか?
    ⇒センタリング(平均値で減算)をする。(1.元の変数をセンタリングする→2.センタリングした変数を二乗する)
    ⇒センタリングした変数とその二乗の散布図はU字(もしくは逆U字)型になるため共線性がなくなる。(二乗項の係数が正ならU字、負なら逆U字)
  • 変数をカテゴリー化(10歳刻みの年齢など)することで非線形な関係を線形で表現することができる。
  • 二乗項を入れたとして元の変数を除去するのはやめて

 

交互作用の検証

  • 連続変数はセンタリングしてから交互項を投入する (多重共線性を防ぐため) cf)カテゴリカール変数はしなくても良いっぽい
  • 似ている方法としてはグループごとに回帰分析をするものもある。(しかし、他の変数の係数も変化する)
  • 当然だけど交互項入れても元の変数は残しといてね

ロバスト回帰分析

  • 誤差項の分散と独立変数の間の相関がある時(Heteroskedastic)に使う。
    ただ、実質的に等分散性というのは現実の世界では特殊なケースと見なした方が良いという見解も

At a general level, economic theory rarely gives any reason to believe that the errors are homoskedastic. It therefore is prudent to assume that the errors might be heteroskedastic unless you have compelling reasons to believe otherwise. (Stock and Watson 2012, p.203)

  • 方法は色々あるそうだが、Stataのコマンドで「vce(robust)」をつけるのは分散均一性が満たされてないときに使われるそう。分散均一性の確認は回帰分析の直後「estat hettest」で確認。VCE(回帰係数の推定量の分散・共分散行列の事)を緩めるため回帰係数には(多分)変わらないが、標準誤差が高くなる。
  • 「vce(cluster varname)」はクラスター・ロバストであり、結果を見ると標準誤差が小さくなっている。級内相関がある時に用いる。
  • 分散均一性の検定はBreusch-Pagan/Cook-weisberg testやwhite testなどがある。
  • 分散の不均一性はよくあることで、むしろ均一性が保たれることが珍しい。したがって、できれば普通のS.E.よりRobust S.E.を使った方がいい。
  • ただし、PollinsによるとRobust S.E.を使うのは良いが、出来ればGLSのやり方も勉強しときましょうって

複数のモデルの誤差項の間に相関が存在するモデル

  • Seemingly Unrelated Regression(SUR)を利用する。
  • Stataのコマンドはsureg (model 1) (model 2)…..
  • [参考]

二項従属変数を用いる回帰分析


 

時系列分析

系列相関

  • t時点の誤差とt-1時点の誤差の間に相関が存在する事。つまりutのベクトルとut-1のベクトルの散布図を描いたら相関が確認できる。とくにtとt-1の間の相関を1次の自己相関(AR; autoregressive)と呼ぶ。
    ⇒OLSの前提が破られた!!!!どうしよー!!!!!
    ⇒誤差の期待値が0ならARが存在しても普遍性は保たれるらしいが・・・
  • 系列相関が現れる主な理由
    1. 行動の習慣性
    2. ショックの持続
    3. 推定モデルの誤りなどなど
  • この系列相関を検証する方法がある
    1. ダービン・ワトソン検定(DW検定)
      DW統計量から系列相関があるかどうかを確認する [Link]
    2. BG検定、DA検定:H0 = 系列相関がない
  • 系列相関をどう除去するか
    1. 差分を利用する:Y=β0 + β1Xt-1 + ut-1
    2. ラグ・モデル:Yt = β0 + β1Xt + β2Yt-1 + ut
    3. PW(プレイス・ウィンステン)法:説明読んでも分からん!!!

 

変数変換

対数変換

  • いつやるの? 今でしょう!
  • 非線形を仮定する場合。つまり、xの影響力が徐々に低下する場合(0には近づくが0にはならない)
  • 単なる単位の変化でなく、%の変化がもたらす影響力を推定する場合は対数変換が望ましい(所得など)
  • それ以外にも変数値の幅(Range)が広い場合、または外れ値をそのまま用いて分析する場合においても対数変換をするらしい。例えば年収という変数は0から∞まである。これを独立変数として用いると場合によっては係数が0.000000xなどという数値で表現されるかも。この場合、対数を取るとよりマシな係数が得られるそう。
  • 変化量ではなく変化率に注目する場合。下の「解釈の仕方」を参照 ⇒詳しく説明すると対数の変化量はDelta {ln}(L ) = {ln}(L_t) - {ln}(L_{t-1})になるはず。対数の性質によると{ln}(L_t) - {ln}(L_{t-1}){ln}(frac{L_t}{L_{t-1}})と等しくなるから変化「率」を表す事になる
  • まあ、でも標準化係数を見れば良いんじゃないのかなー

解釈の仕方

  • 従属変数を対数変換 → {ln}(y) = alpha + beta_1 x
    :独立変数の値が1単位変わるにつれ、従属変数の値が(100 times beta_1)%が変わる。
    ⇒ log-linear model
  • 独立変数を対数変換 → y = alpha + beta_1 ln(x)
    :独立変数が1%変わるにつれ、従属変数の値が(frac{beta_1}{100})だけ変わる。
    ⇒ linear-log model
  • 両方を対数変換  → {ln}(y) = alpha + beta_1 {ln}(x)
    :独立変数が1%変わると従属変数が beta_1 1%変わる。
    ⇒ log-log model
  • Stock and Watson. 2010. \”Introduction to Econometrics\”  p. 314も参照

 

分位点回帰

  • 既存の回帰分析と比べて面白いとも思うし、色んなところに使えると思う。
  • 分位点回帰が威力が発揮する場面は「従属変数が正規分布とはほど遠い」、つまり歪度の絶対値が高い場合である。
  • 普通の回帰分析は従属変数は1単位変化する時の従属変数の期待値、ここでは平均値を予測するものだが 分位点回帰はその分位点がどう移動するかが確認できる。
  • 最も一般的な分位点回帰は「メディアン回帰」。
    つまり、これは独立変数が1単位動く時に従属変数のメディアンがどう動くかが確認できる。
  • この手法を使うと分布の特定位置にある従属変数の変化が予測できる
  • ブートストラップが500~2000回くらいは必要だと言われる。時間はかかる。

パネルデータ分析

「固定効果」と「変量効果(ランダム効果)」、どっちを使うか

  • 僕もよく分からんが、Clark and Linzer(2015)によると、まずは固定効果モデルと変量効果モデル両方を推定し、ハウスマン(Haussman)検定をやってみる。
  • ハウスマン検定は2つのモデルの推定値に有意な差があるか否かを検定するもの。
  • もし、有意な差がなかったら効率性のいい変量効果を採用しする。
  • 差があったら変量効果モデルからの推定値にはバイアスがあることを意味するので固定効果をする。
  • ということは固定効果の方がロバストということかな?(パラメーターが増えるので効率性は悪い)
  • もちろん、変量効果モデルは収束しないことがしばしばあるので、その時は固定効果モデルを使わざるを得ない。