社会科学における因果推論

8/ 差分の差分法

宋財泫(関西大学)

1 差分の差分法

電子投票の導入と投票率

2004年京都市長選挙における電子投票の導入1

  • 11の行政区の内、東山区のみ導入
  • タッチパネル式投票(投票所に足を運ぶ必要はある)

我々が考えている電子投票

現在の電子投票

東山区の投票率(経時的変化)

  • 電子投票導入後、投票率が約2.1%p減少(45.6% \(\rightarrow\) 43.5%)
    • 電子投票は投票率を下げる?

内生性

  • 電子投票の導入は選管が決めるため、自己選択バイアスの可能性がある。
  • \(\Rightarrow\) 電子投票と投票率間の交絡要因は?
    • どのような場合に選管は電子投票の導入を検討するか。

自己選択バイアスの例(1)

  • 東山区の投票率は元々低く、選管が投票率向上のために電子投票を導入
  • 元々投票率の低い地域は次の選挙の投票率も低い傾向
  • 電子投票のおかげで2.1%p減で食い止められたかも
  • \(\Rightarrow\) 単純前後比較には限界があり、比較対象が必要

東山区の投票率(群間比較)

  • 電子投票を導入した東山区の投票率は導入しなかった区に比べ、約4.5%p高い
    • 電子投票は投票率を上げる?

自己選択バイアスの例(2)

  • 東山区の選管は投票参加の重要性を認識
    • \(\Rightarrow\) 東山区は元々投票率が高かった可能性 & 更に投票率を上げるための方法を導入
  • 電子投票がなくても東山区は投票率が高い可能性
  • \(\Rightarrow\) 単純群間比較には限界があり、比較対象が必要

何と何を比較するか

電子投票を導入しなかった2004年の東山区」が最適な比較対象

  • しかし、観察できない(因果推論の根本問題)
  • 郡間比較も、前後比較も、適切な比較方法ではない(可能性が高い)
  • ある仮定が満たされれば、郡間比較、または前後比較で因果効果が推定可能
    • その仮定とは?

2つの推定方法

処置前(Pre) 処置後(Post)
統制(\(D_i = 0\) \(\mathbb{E}[Y_{i, pre}^0|D_i = 0]\) \(\mathbb{E}[Y_{i, post}^0|D_i = 0]\)
処置(\(D_i = 1\) \(\mathbb{E}[Y_{i, pre}^1|D_i = 1]\) \(\mathbb{E}[Y_{i, post}^1|D_i = 1]\)

\[ \textsf{ATT} = \mathbb{E}[Y_{i, \textsf{post}}^1|D_i = 1] - \underbrace{\mathbb{E}[Y_{i, \textsf{pre}}^0|D_i = 1]}_{\scriptstyle \textsf{counterfactual}} \]

群間比較(Cross-sectional design)

  • \(\mathbb{E}[Y_{i, \textsf{post}}^1|D_i = 1] - \mathbb{E}[Y_{i, \textsf{post}}^0|D_i = 0]\)
  • ATTが推定可能となる仮定:\(\mathbb{E}[Y_{i, \textsf{post}}^0|D_i = 1] = \mathbb{E}[Y_{i, \textsf{post}}^0|D_i = 0]\)

前後比較(Before-and-after design)

  • \(\mathbb{E}[Y_{i, \textsf{post}}^1|D_i = 1] - \mathbb{E}[Y_{i, \textsf{pre}}^1|D_i = 1]\)
  • ATTが推定可能となる仮定:\(\mathbb{E}[Y_{i, \textsf{post}}^0|D_i = 1] = \mathbb{E}[Y_{i, \textsf{pre}}^1|D_i = 1]\)

前後 + 群間比較

  • 同時期における北区の投票率は約8.3%p減少(48.7% \(\rightarrow\) 40.4%)
    • 電子投票は投票率を下げる? \(\rightarrow\) そうじゃないかも知れない。

反実仮想を考える

2004年に東山区が電子投票を導入しなかったら…

  • 北区同様、約8.3%p減少したかも知れない(破線)。

  • 実際は約2.1%p減に留まった。
  • \(\Rightarrow\) 電子投票のおかげで投票率が6.2%p増

電子投票の因果効果の推定

  • 処置効果\(\delta\)処置群における変化量統制群における変化量の差分
    • \(A\):処置群における差分 = 観測された処置群の変化量
    • \(B\):統制群における差分 = もし処置群が処置を受けなかった場合の処置群の変化量の推定値(反実仮想)
    • \(\delta_{\textsf{ATT}} = A - B\):因果効果・処置効果

\[ \begin{align} \delta_{\textsf{ATT}} & = (Y_{\textsf{treat}, \textsf{pre}} - Y_{\textsf{treat}, \textsf{post}}) - (Y_{\textsf{control}, \textsf{pre}} - Y_{\textsf{control}, \textsf{post}}) \\ & = (0.435 - 0.456) - (0.404 - 0.487) \\ & = (-0.021) - (-0.083) \\ & = 0.062 \end{align} \]

差分の差分法

Difference-in-Differences(DD / DID / Diff-in-Diff / Dif-in-Dif)

  • 処置群と統制群の変化の差を比較することで、因果効果を推定する準実験的手法
    • 主に政策介入制度変更などの因果効果を推定する際に使用
  • 時間を通じた結果変数の変化の差を、処置群と統制群の間で比較
    • 時系列データを使って対象の経時的変化のみを分析(\(\times\)
    • ある時点における介入群と対照群の差異のみを分析(\(\times\)
  • 推定量はATEでなく、ATT
  • パネルデータ(panel data)が必要

パネルデータ

同じ個体を複数回の観測したデータ

  • 個体は主に国、地域、企業、団体などの集団が多い
    • DIDが主に政策介入、制度変更の因果効果に活用される理由
    • 個体自ら観測結果を発信することが多いので、収集コストが非常に低い
    • 人間のパネルデータも構築可能(収集コストが高い)
  • 以下は2つの個体(東山区と北区)を2回(2000年と2004年)観測したデータ
    • 観測単位は「区」でも、「年」でもなく、「区 \(\times\) 年」
投票方式 投票率
東山区 2000 自書 45.6
東山区 2004 電子 43.5
北区 2000 自書 48.7
北区 2004 自書 40.4

クロスセクションデータ

一つ一つの個体は1回のみ登場する

  • すべての個体は同じタイミングで観測されており、観測回数は1回のみ
  • \(\Rightarrow\)「個体1」が2回以上登場することはない
個体 変数1 変数2
個体1 7.1 54.0
個体2 8.1 49.5
個体3 5.0 55.4
個体4 6.1 48.8
個体5 7.3 55.6
個体6 6.5 47.5
個体7 3.8 48.6
個体8 5.5 50.5

パネルデータの例

個体が4つ(個体1〜4)、時期が3期(2022年、2023年、2024年)の場合

個体 時期 変数1 変数2
個体1 2022年 1305 80
個体1 2023年 1299 79
個体1 2024年 1266 90
個体2 2022年 1593 20
個体2 2023年 1620 17
個体2 2024年 1653 15
個体3 2022年 1539 25
個体3 2023年 1551 23
個体3 2024年 1585 23
個体4 2022年 1021 157
個体4 2023年 1024 154
個体4 2024年 991 165
  • 個体2は3回登場する。
    • 個体2は計3回(2022年2023年2024年)測定されているから
  • 2023年は4回登場する。
    • 2023年において計4つの個体(個体1、個体2個体3個体4)を測定しているから
  • パネルデータのサンプルサイズは個体数 \(\times\) 観測回数
    • パネル脱落による欠損等により、「個体数 \(\times\) 観測回数」より少なくなることはあり得る(逆は成立しない)

2 仮定

並行トレンドの仮定

平均トレンドの仮定(parallel trend assumption)

  • 処置が行われなかった場合の潜在的な結果の傾向は、処置群と統制群の間で同じであること
  • この仮定が満たされる場合、統制群のトレンドを処置群の反実仮想として使える

\[ \underbrace{\mathbb{E}[Y^0_{i, \textsf{post}}|D_i = 1] - \mathbb{E}[Y^0_{i, \textsf{pre}}|D_i = 1]}_{\textsf{(A)}} = \underbrace{\mathbb{E}[Y^0_{i, \textsf{post}}|D_i = 0] - \mathbb{E}[Y^0_{i, \textsf{pre}}|D_i = 0]}_{\textsf{(B)}} \]

  • (A):処置群がもし処置を受けなかった場合の変化量(反実仮想)
  • (B):統制群における変化量(観察可能)
  • \(\Rightarrow\) 「統制群の変化量」=「処置群が処置を受けなかった場合の潜在的結果」

仮定が満たされる場合

  • 処置を受けるまでは東山区と北区の投票率のトレンドが平行
    • 北区が東山区の反実仮想として使える

仮定が満たされない場合

  • 処置を受けるまで東山区と北区の投票率のトレンドが平行でない
    • 北区を東山区の反実仮想として使うことは不適切

可視化による確認

  • 長期間であるほど、統制群の個体が多いほど確認しやすい
  • 人為的な解釈が必要であり、並行トレンドの仮定に対する示唆的根拠(suggestive evidence)に過ぎない
  • プラセボテストで並行トレンドの仮定が満たされていないことは検知可能(後述)

3 推定

回帰分析と差分の差分法

2つの個体、2期の場合

\[ y_{it} = \alpha + \delta (D_i \times P_t) + \beta D_{i} + \gamma P_{t} + \varepsilon_{it} \]

  • \(y_{it}\):結果変数
    • \(i\):個体(今回の例だと京都の行政区)
    • \(t\):時間(1996年、2000年、2004年、…)
  • \(D_{i}\):個体\(i\)が処置群に属するかを示すダミー変数
  • \(P_{t}\):時間\(t\)が処置後であることを示すダミー変数

実装例

\[ y_{it} = 48.7 + 6.2 (D_i \times P_t) - 3.1 D_{i} - 8.3 P_{t} + \varepsilon_{it} \]

Name \(y_{it}\) \(D_{i}\) \(P_{t}\) \(D_i \times P_t\)
東山区 45.6 1 0 0
東山区 43.5 1 1 1
北区 48.7 0 0 0
北区 40.4 0 1 0
  • \(\alpha\) = 48.7
    • 処置前における統制群の結果変数
  • \(\delta\) = 6.2
    • 処置効果(ATT)
  • \(\beta\) = -3.1
    • 処置前における処置群と統制群と差
  • \(\gamma\) = -8.3
    • 統制群における結果変数の変化量

DID回帰の仕組み

\[ \hat{y}_{it} = \alpha + \delta (D_i \times P_t) - \beta D_{i} - \gamma P_{t} \]

  • 処置群の差分:\(\hat{y}_{it}(D_i = 1, P_t = 1) − \hat{y}_{it}(D_i = 1, P_t = 0)\)
    • \(\delta + \gamma = \underbrace{(\alpha + \delta + \beta + \gamma)}_{\hat{y}_{it}(D_i = 1, P_t = 0)} - \underbrace{(\alpha + \beta)}_{\hat{y}_{it}(D_i = 1, P_t = 0)}\)
  • 統制群の差分:\(\hat{y}_{it}(D_i = 0, P_t = 1) − \hat{y}_{it}(D_0 = 1, P_t = 0)\)
    • \(\gamma = \underbrace{(\alpha + \gamma)}_{\hat{y}_{it}(D_i = 0, P_t = 1)} - \underbrace{(\alpha)}_{\hat{y}_{it}(D_i = 0, P_t = 0)}\)
  • 差分の差分:\(\delta = (\delta + \gamma) - (\gamma)\)
    • \(\Rightarrow \delta\)処置効果

より一般化したDID回帰

\[ y_{it} = \alpha + \delta D_{it} + \gamma_i + \lambda_t + \varepsilon_{it} \]

  • 個体と時間の固定効果モデル(二元配置固定効果モデル)
    • \(\gamma_i\):個体のダミー変数
    • \(\lambda_t\):時間のダミー変数
  • 注意)3期以上のデータの場合、系列相関により標準誤差が過小評価される。

系列相関と標準誤差

  • 2期間より長いパネルデータを分析する場合、結果変数は個体内で強い相関を持つ
    • 系列相関(serial correlation)が発生する
  • 例)2004年の東山区の投票率は、2000年の東山区の投票率と強い相関関係があり、2000年の東山区の投票率は、1996年の東山区の投票率と強い相関関係があり、…
    • 投票率が高いところは、これからも高い可能性が高い(逆も同じ)
      • 一つ一つのの観測値が独立とは言えなくなる
    • 似たような観測が多くなるため、有効なサンプルサイズ(Effective Sample Size[ESS])は実際よりも小さい
  • 系列相関が存在する場合、従来の標準誤差(lm()等)は過小評価される
    • \(\Rightarrow\) 個体でクラスター化した頑健な標準誤差(cluster-robust standard error)
    • その他)ブロック・ブートストラップ / データを処置前後の2期に集約

系列相関の例

トレンド変数

トレンド変数と個体ダミー変数の交差項を投入

  • 結果変数説明変数
  • さらに、「北区 \(\times\) トレンド」、「東山区 \(\times\) トレンド」、「西京区 \(\times\) トレンド」も投入
ID 北区 東山区 西京区 1996年 2000年 2004年 電子投票 投票率 トレンド
1 北区 1996 1 0 0 1 0 0 0 0.447 1
2 東山区 1996 0 1 0 1 0 0 0 0.430 1
3 西京区 1996 0 0 1 1 0 0 0 0.407 1
4 北区 2000 1 0 0 0 1 0 0 0.487 2
5 東山区 2000 0 1 0 0 1 0 0 0.456 2
6 西京区 2000 0 0 1 0 1 0 0 0.460 2
7 北区 2004 1 0 0 0 0 1 0 0.404 3
8 東山区 2004 0 1 0 0 0 1 1 0.435 3
9 西京区 2004 0 0 1 0 0 1 0 0.381 3

トレンド変数の必要性

  • 左:トレンド変数がなくてもOK
  • 右:トレンド変数を投入することである程度バイアスが小さくなる
    • \(\Rightarrow\) 並行トレンドの仮定の緩和

トレンド変数と反実仮想

  • 左:トレンド変数を投入していないモデル
  • 右:トレンド変数を投入したモデル

共変量が必要な時

  • 3期以上のパネルデータを使用したDIDの場合、未観察の交絡要因が時間不変(no time-varying confounders)であることが前提
    • この仮定が満たされない場合、共変量を投入することが推奨される

共変量の投入

  • 時間と共に変化する交絡要因(time-varying confounder)の投入
    • 適切な共変量を投入すると条件付き並行トレンドの仮定が成立
  • トレンド変数と共変量、両方投入しても良い

4 実装例

パネルデータの確認

  • 個体 \(\times\) 時間 \(\times\) 処置有無の可視化(以下は{panelView}パッケージを使用した例)

推定

線形回帰モデル(二元配置固定効果モデル)

  • 投入する変数
    • 処置変数
    • 個体と時間の固定効果
    • トレンド変数
    • 共変量
  • 2期以上のデータである場合、個体でクラスター化した標準誤差を使用
    • 例){estimatr}のlm_robust()
  • 一般的に処置変数の係数のみ報告
    • 固定効果はデータによっては数百個の変数にもなるため
    • トレンド変数や共変量の係数は付録などに

García-Montoya et al. (2022)

  • 3種類の処置変数 \(\times\) 4つのモデル

プラセボテスト

並行トレンドの仮定が満たされていないことは検知可能(逆は不可能)

手順

  1. 処置前のデータのみ抽出する
  2. 任意の時期に処置が行われたと仮定し、再コーディングする
    • 例)東山区が2000年に電子投票を導入したかのように修正する(実際は2004年)
  3. DID推定
  4. 処置効果が統計的有意に0でない場合、並行トレンドが満たされていないと判断
通常のデータ プラセボ
注:カッコ内は標準誤差
eVote 0.047(0.005) -0.009(0.006)
Num.Obs. 55 44
区固定効果 Yes Yes
年固定効果 Yes Yes

5 番外編:SCM

合成コントロール法

Synthetic Control Method(SCM)

  • 合成コントロール法、または合成制御法と訳される(SCMともよく呼ばれる)
  • 統制群を合成することで処置群の潜在的結果を作り上げる手法
    • 処置群と並行トレンドを満たす架空の統制群を作り上げる
    • Abadie, Diamond, and Hainmueller(2010, 2015)によって提案され、Xu(2017)が一般化SCMを提案

並行トレンドは?

  • どうみても平行トレンドの仮定が満たされているとは言い難い。

たくさんの統制群を用意する

  • 一つ一つの線は西ドイツと平行でないかも知れないが、重み付けで合成すれば西ドイツのトレンドを追従するトレンドが作れそう。

統制群の合成

統制群に重みを付けて合成する

  • 通常のSCMの場合、重みは必ず正であるが、一般化SCM(Xu 2017)の場合、負もあり得る。

合成された架空の西ドイツ

統一(1990年)までのトレンドが類似(しているように見える)

比較

統一するまでのトレンドがほぼ一致

  • 架空の西ドイツは西ドイツの反実仮想(統一しなかった西ドイツ)として適切

因果効果は?

西ドイツ 反実仮想 差分 累積
1960 2,284 2,275 9
1961 2,388 2,397 −9
1962 2,527 2,526 1
1963 2,610 2,621 −11
... ... ... ... ...
1988 17,786 17,769 17
1989 18,994 19,005 −11 -11
1990 20,465 20,394 71 60
1991 21,602 21,574 28 88
1992 22,154 22,326 −172 -84
1993 21,878 22,697 −819 -903
1994 22,371 23,700 −1,329 -2233
... ... ... ... ...
2001 27,449 33,659 −6,210 -27295
2002 28,348 34,348 −6,000 -33295
2003 28,855 35,041 −6,186 -39481
  • 推定される処置効果はATT
    • 1993年におけるATT:-819ドル
    • 1993年におけるATT:-1,329ドル
  • 代表値で報告する場合
    • 平均ATT:-2,819ドル
    • 累積ATT(CATT):-39,481ドル
  • どの推定値(特定時点におけるATT、平均ATT、CATT)を報告するかを決めるのは分析者の仕事

ATTの可視化

  • 左:各時点ごとのATT
  • 右:各時点における累積ATT(処置後のみ)