相関から因果へ
原因(\(X\))と結果(\(Y\))の関係:啓発活動と投票率の関係(架空の例)
- \(\bigcirc\): 啓発活動が行われる選挙区の投票率は低い(相関関係)
- \(\times\): 啓発活動は投票率を下げる(因果関係)
- \(\Rightarrow\) 統計分析から得られる結果は相関関係のみ
- 理論/デザインを用い、観察された相関関係が因果関係であることを説得
- 「これは相関関係でなく因果関係である」と主張するためには、内生性がないことを示す必要がある。
同時性
Simultaneity
原因と結果の間に双方向の因果関係が存在
- 例) お酒 (原因; X) とストレス (結果; Y) の関係
- 酒を飲むとストレスが貯まる
- ストレス解消のために酒を飲む
- 酒を飲むとストレスが貯まる
- ストレス解消のために酒を飲む
- 酒を飲むとストレスが貯まる
- …
- \(\rightarrow\) 地獄のような無限ループ
\(\Rightarrow\) 酒がストレスに与える影響は?
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
- たまたま相関関係がある場合
- 例) メイン州の離婚率一人当たりマーガリンの消費量
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
- たまたま相関関係がある場合
- 例) Whole Foods社の顧客満足度とワシントンDC内の政治学博士学位の保有者数
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
- 第3の要因からの影響(アイスクリームはビールのお供?)
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
- 第3の要因からの影響(ゲームをやると身長が伸びる?)
因果関係のない見かけ上の相関
Spurious Correlation、擬似相関
- 第3の要因からの影響(ゲームをやると身長が伸びる?)
逆の因果
Reverse Causality
| 心臓移植を |
受けた |
10名 |
5名 |
|
受けなかった |
5名 |
10名 |
- 心臓移植を受けたら死亡確率が上がる?
- 死亡確率が高い人が心臓移植を受ける?
逆の因果
Reverse Causality
- 「人気だから4文字に略されるのか、4文字に略せるからヒットす るのか、どっちなんでしょうね」
欠落変数バイアス
Omitted Variable Bias
例) 真のモデルが\(Y = \beta_0 + \beta_1 \cdot X + \beta_2 \cdot Z + e\)の場合(\(X\)が原因、\(Y\)が結果)
ケース1)\(X\)と\(Y\)が独立している場合
- \(X\)と\(Z\)は独立(\(X \perp Z\))= \(\sigma_{X, Z} = 0\)
- モデルから\(Z\)を除外し、\(Y = \tilde{\beta_0} + \tilde{\beta_1} \cdot X + e\)のモデルを推定しても、\(\beta_1 = \tilde{\beta_1}\)
- モデルに\(Z\)が含まれていなくても処置効果の推定値(原因変数\(X\)のの傾き係数)はバイアスを含まない
欠落変数バイアス
Omitted Variable Bias
例) 真のモデルが\(Y = \beta_0 + \beta_1 \cdot X + \beta_2 \cdot Z + e\)の場合(\(X\)が原因、\(Y\)が結果)
ケース2)\(Z \rightarrow X\)の関係が存在する場合
- \(X\)と\(Z\)は連関しており、\(\sigma_{X, Z} \neq 0\)
- モデルから\(Z\)を除外し、\(Y = \tilde{\beta_0} + \tilde{\beta_1} \cdot X + e\)のモデルを推定したら、\(\beta_1 \neq \tilde{\beta_1}\)
- モデルに\(Z\)が含まれていない場合、処置効果の推定値(原因変数\(X\)のの傾き係数)はバイアスを含む
- 問題点:バイアスを含まない(=不偏推定量)因果効果を推定するためには\(X\)と\(Y\)両方と相関する変数すべてが必要
- \(X\)と\(Y\)両方と相関するすべての変数は特定可能? 測定可能? \(\Rightarrow\) 実質不可能
自己選択バイアス
(Self-)Selection Bias
| 職業訓練を |
受けた |
6349ドル |
|
受けなかった |
6984ドル |
- 職業訓練を受けたら収入が上がる?
- もともと低収入の人が職業訓練を受けようとする?
- 参考) 心臓移植の例も自己選択のバイアスとして解釈可能
- 参考) 交絡因子の不在として解釈可能(就労意欲など)
内生性
これまでの多くの例は内生性(endogeneity)の問題
- 内生性: 説明変数と誤差項間に相関が存在
- 誤差項と相関のある説明変数: 内生変数(endogenous variable)
- 内生性がある場合、推定値は一致推定量でも、不偏推定量でもはない
- サンプルサイズ(\(N\))をいくら増やしても無駄
- 内生性の原因
- 同時性
- 欠落変数バイアス
- (体系的な)測定誤差
- 自己選択バイアス
- 最近の教科書はこれはすべてを自己選択バイアスや欠落変数バイアスでまとめる傾向
単純比較の罠
啓発活動と投票率の関係(架空の例)
- 単純比較の手法
- 平均値の比較、平均値の差の検定(\(t\)検定、ANOVA)、単回帰分析など
- 啓発ありの投票率 - 啓発なしの投票率 = -10%p
- 内生性がない場合、「啓発活動は投票率を-10%p下げる」と主張できる。
- 本当に、本当に、本当に、内生性はないのか。
内生性は?
- \(Y\): 投票率
- \(X\): 啓発活動の有無
- \(W\): 若者の割合
- \(Z\): これまでの投票率
- \(e\): \(X\)と\(Z\)以外に、\(Y\)に影響を与える要因
- 投票率が低い選挙区ほど、啓発活動を行う傾向
- 投票率が元々低い選挙区の場合、今回の投票率も低い傾向
- \(\Rightarrow\) 自己選択バイアス/欠落変数バイアスの存在
- 本当に比較すべき対象は…
- 啓発活動を行わなかったA市 vs. 行ったA市
- 啓発活動を行わなかったB市 vs. 行ったB市
- これらは比較可能か?
相関から因果へ
内生性の除外 \(\rightarrow\) 因果効果の推定
因果関係の例
ソンさんの講義を履修することで期待年収が上がるか
- 名取君の場合: ソンさんの講義を履修し、年収が5000万円に
- ソンさんの授業のおかげで富裕層になった(次は社交界進出)
- 友達に教えてあげよう
講義履修の効果
- 処置: ソンさんの講義を履修するか否か
- 効果: 履修した場合の年収 − 履修しなかった場合の年収
因果関係の例
ソンさんの講義を履修することで期待年収が上がるか
- 名取君の場合: ソンさんの講義を履修し、年収が5000万円に
- ソンさんの授業のおかげで富裕層になった(次は社交界進出)
- 友達に教えてあげよう
講義履修の効果(ケース1)
- 名取君がソンさんの授業を履修しなくても年収5000万円なら
因果関係の例
ソンさんの講義を履修することで期待年収が上がるか
- 名取君の場合: ソンさんの講義を履修し、年収が5000万円に
- ソンさんの授業のおかげで富裕層になった(次は社交界進出)
- 友達に教えてあげよう
講義履修の効果(ケース2)
- 名取君がソンさんの授業を履修しなかった場合、年収1000万円なら
- ソンさんの講義の因果効果は4000万円
- 一生ソンさんには頭が上がらない
因果関係の例
ソンさんの講義を履修することで期待年収が上がるか
- 名取君の場合: ソンさんの講義を履修し、年収が5000万円に
- ソンさんの授業のおかげで富裕層になった(次は社交界進出)
- 友達に教えてあげよう
講義履修の効果(ケース3)
- 名取君がソンさんの授業を履修しなかった場合、年収8000万円なら
- ソンさんの講義の因果効果は-3000万
- ソンさんは悪くない
因果関係の例
ソンさんの講義を履修することで期待年収が上がるか
- 名取君の場合: ソンさんの講義を履修し、年収が5000万円に
- ソンさんの授業のおかげで富裕層になった(次は社交界進出)
- 友達に教えてあげよう
講義履修の効果
- ソンさんの講義を履修しなかった場合の名取君の年収は…?
- 個人(名取君)における処置効果を推定する際にはこれが不可欠
| ケース1 |
5000万 |
5000万 |
0万 |
| ケース2 |
1000万 |
5000万 |
4000万 |
| ケース3 |
8000万 |
5000万 |
-3000万 |
潜在的結果枠組み
Neyman-Rubin-HollandのPotential Outcome Framework
- \(i\) : 学生ID ( \(i = 1,2,3,...,N\) )
- \(T\) : 処置
- 学生 \(i\) が謎の薬を飲んだ ( \(T_i = 1\) )
- 学生 \(i\) が謎の薬を飲まなかった ( \(T_i = 0\) )
- \(Y_i(T_i = 1)\) : 学生 \(i\) が謎の薬を飲んだ場合の数学成績
- \(Y_i(T_i = 0)\) : 学生 \(i\) が謎の薬を飲まなかった場合の数学成績
- \(ITE_i = Y_i(T_i = 1) − Y_i(T_i = 0)\) : 学生\(i\)における薬の処置効果
- ITE: Individual Treatment Effect (個体における処置効果)
- = UTE(Unit Treatment Effect)とも呼ばれる
- 全く同じ個人において薬を飲んだ場合と飲まなかった場合の数学成績の差 = 謎の薬の因果効果
薬の効果は?
ITEの平均値は−4であり、個人差はあるものの、全体的に薬は成績に負の影響
- \(Y_i(T_i = 0)\)と\(Y_i(T_i = 1)\)は学生\(i\)が薬を飲まなかった場合と飲んだ場合の数学成績
- \(Y_i(T_i = 0)\)と\(Y_i(T_i = 1)\)は学生\(i\)の潜在的結果(potential outcome)
| 1 |
1 |
77 |
85 |
8 |
| 2 |
1 |
49 |
59 |
10 |
| 3 |
1 |
60 |
66 |
6 |
| 4 |
0 |
61 |
44 |
-17 |
| 5 |
0 |
50 |
39 |
-11 |
| 6 |
0 |
75 |
55 |
-20 |
| 平均 |
|
62 |
58 |
-4 |
因果推論の根本問題
しかし、観察できる潜在的結果(\(Y_i(T_i = 1)\)と\(Y_i(T_i = 0)\))は一つのみ(両方観察はできない)
- \(Y_{i \in \{1, 2, 3\}}(T_i = 0)\)は反実仮想(counterfactual; または、「半事実」)であり、観察不可
- \(Y_{i \in \{4, 5, 6\}}(T_i = 1)\)も反実仮想
| 1 |
1 |
反実仮想 |
85 |
85 - ? = ? |
| 2 |
1 |
反実仮想 |
59 |
59 - ? = ? |
| 3 |
1 |
反実仮想 |
66 |
66 - ? = ? |
| 4 |
0 |
61 |
反実仮想 |
? - 61 = ? |
| 5 |
0 |
50 |
反実仮想 |
? - 50 = ? |
| 6 |
0 |
75 |
反実仮想 |
? - 75 = ? |
| 平均 |
|
62 |
70 |
8 |
「みんなで薬やろうぜ」って言っていいのか
世界一受けたいソンさんの授業
履修者5名(\(i = \{1, 2, ..., 5\}\))と非履修者5名(\(i = \{6, 7, ..., 10\}\))の年収の比較
- ITEは分からないが、平均値の差分を見ると、+100万円の効果
| 1 |
1 |
? |
700 |
? |
| 2 |
1 |
? |
1000 |
? |
| 3 |
1 |
? |
550 |
? |
| 4 |
1 |
? |
350 |
? |
| 5 |
1 |
? |
400 |
? |
| 6 |
0 |
400 |
? |
? |
| 7 |
0 |
500 |
? |
? |
| 8 |
0 |
350 |
? |
? |
| 9 |
0 |
750 |
? |
? |
| 10 |
0 |
500 |
? |
? |
| 平均 |
|
500 |
600 |
100 |
世界一受けたいソンさんの授業
もし反実仮想が観察可能であれば…(ケース1)
- 80万円の価値があるソンさんの講義、みんなで履修しよう!
| 1 |
1 |
550 |
700 |
150 |
| 2 |
1 |
650 |
1000 |
350 |
| 3 |
1 |
600 |
550 |
-50 |
| 4 |
1 |
300 |
350 |
50 |
| 5 |
1 |
300 |
400 |
100 |
| 6 |
0 |
400 |
300 |
-100 |
| 7 |
0 |
500 |
700 |
200 |
| 8 |
0 |
350 |
600 |
250 |
| 9 |
0 |
750 |
700 |
-50 |
| 10 |
0 |
500 |
400 |
-100 |
| 平均 |
|
490 |
570 |
80 |
世界一受けたいソンさんの授業
もし反実仮想が観察可能であれば…(ケース2)
| 1 |
1 |
800 |
700 |
-100 |
| 2 |
1 |
650 |
1000 |
350 |
| 3 |
1 |
600 |
550 |
-50 |
| 4 |
1 |
400 |
350 |
-50 |
| 5 |
1 |
350 |
400 |
50 |
| 6 |
0 |
400 |
300 |
-100 |
| 7 |
0 |
500 |
500 |
0 |
| 8 |
0 |
350 |
400 |
50 |
| 9 |
0 |
750 |
500 |
-250 |
| 10 |
0 |
500 |
400 |
-100 |
| 平均 |
|
530 |
510 |
-20 |
因果推論の根本問題
- \(Y_i(T_i = 1)\)か\(Y_i(T_i = 0)\)、片方のみしか観察できない状態においてITEから因果効果を推定することは不可能
- 因果推論の根本問題 (The fundamental problem of causal inference)
- どうすれば反実仮想が観察できるか
- 解決方法:もう一回、過去に戻って異なる処置を行う(過去に戻ってこっそり名取くんの履修登録届を燃やす)
因果推論の根本問題
- \(Y_i(T_i = 1)\)か\(Y_i(T_i = 0)\)、片方のみしか観察できない状態において、ITEから因果効果を推定することは不可能
- ただし、ドラえもんが存在する世界線を除く
- 因果推論の根本問題 (The Fundamental Problem of Causal Inference)
- すべての潜在的結果を直接観察する方法は存在する
- ただし、個々人の潜在的結果ではなく、集団における潜在的結果のみ観察可能
- 集団における潜在的結果から計算される因果効果 = 平均処置効果 (ATE; Average Treatment Effect)
- 各集団の平均値の差分から平均的な因果効果を推定
- しかし、…
平均取るだけでOK?
観察されたデータから差分が信頼できる処置効果の推定値かは不明
- \(T_i = 1\)の生徒たちがソンさんの授業を履修しなかったら、本当に彼女らの平均年収は500万円になっただろうか
- \(T_i = 0\)の生徒たちがソンさんの授業を履修したら、本当に彼女らの平均年収は600万円になっただろうか
- 以上の2つの問いに「Yes」と答えられない以上、集団間の単純比較から得られた平均処置効果の信頼性は低い
| 1 |
1 |
? |
700 |
? |
| 2 |
1 |
? |
1000 |
? |
| 3 |
1 |
? |
550 |
? |
| 4 |
1 |
? |
350 |
? |
| 5 |
1 |
? |
400 |
? |
| 6 |
0 |
400 |
? |
? |
| 7 |
0 |
500 |
? |
? |
| 8 |
0 |
350 |
? |
? |
| 9 |
0 |
750 |
? |
? |
| 10 |
0 |
500 |
? |
? |
| 平均 |
|
500? |
600? |
100? |
信頼できるATEの条件
ATE推定値の信頼性を損なう敵: 内生性 (しかも、常に存在する)
例) やる気のある学生だけがソンさんの講義を履修した場合
- 自己選択バイアス
- ソンさんの講義は鬼畜すぎるため、やる気満々の学生には役に立つものの、やる気のない学生にとってはむしろ学習意欲が低下
- 疑似相関
- やる気のある学生はいろんな方面で頑張るから、将来年収が高くなる。
- 測定誤差
- 履修者の年収はジンバブエ・ドルで測定されている可能性も(これはないか)
内生性は因果推論の敵! どうすれば…?
\(\downarrow\)
無作為割当(random assignment)