8/ 差分の差分法
2004年京都市長選挙における電子投票の導入1
「電子投票を導入しなかった2004年の東山区」が最適な比較対象
処置前(Pre) | 処置後(Post) | |
---|---|---|
統制(\(D_i = 0\)) | \(\mathbb{E}[Y_{i, pre}^0|D_i = 0]\) | \(\mathbb{E}[Y_{i, post}^0|D_i = 0]\) |
処置(\(D_i = 1\)) | \(\mathbb{E}[Y_{i, pre}^1|D_i = 1]\) | \(\mathbb{E}[Y_{i, post}^1|D_i = 1]\) |
\[ \textsf{ATT} = \mathbb{E}[Y_{i, \textsf{post}}^1|D_i = 1] - \underbrace{\mathbb{E}[Y_{i, \textsf{pre}}^0|D_i = 1]}_{\scriptstyle \textsf{counterfactual}} \]
2004年に東山区が電子投票を導入しなかったら…
\[ \begin{align} \delta_{\textsf{ATT}} & = (Y_{\textsf{treat}, \textsf{pre}} - Y_{\textsf{treat}, \textsf{post}}) - (Y_{\textsf{control}, \textsf{pre}} - Y_{\textsf{control}, \textsf{post}}) \\ & = (0.435 - 0.456) - (0.404 - 0.487) \\ & = (-0.021) - (-0.083) \\ & = 0.062 \end{align} \]
Difference-in-Differences(DD / DID / Diff-in-Diff / Dif-in-Dif)
同じ個体を複数回の観測したデータ
区 | 年 | 投票方式 | 投票率 |
---|---|---|---|
東山区 | 2000 | 自書 | 45.6 |
東山区 | 2004 | 電子 | 43.5 |
北区 | 2000 | 自書 | 48.7 |
北区 | 2004 | 自書 | 40.4 |
一つ一つの個体は1回のみ登場する
個体 | 変数1 | 変数2 |
---|---|---|
個体1 | 7.1 | 54.0 |
個体2 | 8.1 | 49.5 |
個体3 | 5.0 | 55.4 |
個体4 | 6.1 | 48.8 |
個体5 | 7.3 | 55.6 |
個体6 | 6.5 | 47.5 |
個体7 | 3.8 | 48.6 |
個体8 | 5.5 | 50.5 |
個体が4つ(個体1〜4)、時期が3期(2022年、2023年、2024年)の場合
個体 | 時期 | 変数1 | 変数2 |
---|---|---|---|
個体1 | 2022年 | 1305 | 80 |
個体1 | 2023年 | 1299 | 79 |
個体1 | 2024年 | 1266 | 90 |
個体2 | 2022年 | 1593 | 20 |
個体2 | 2023年 | 1620 | 17 |
個体2 | 2024年 | 1653 | 15 |
個体3 | 2022年 | 1539 | 25 |
個体3 | 2023年 | 1551 | 23 |
個体3 | 2024年 | 1585 | 23 |
個体4 | 2022年 | 1021 | 157 |
個体4 | 2023年 | 1024 | 154 |
個体4 | 2024年 | 991 | 165 |
平均トレンドの仮定(parallel trend assumption)
\[ \underbrace{\mathbb{E}[Y^0_{i, \textsf{post}}|D_i = 1] - \mathbb{E}[Y^0_{i, \textsf{pre}}|D_i = 1]}_{\textsf{(A)}} = \underbrace{\mathbb{E}[Y^0_{i, \textsf{post}}|D_i = 0] - \mathbb{E}[Y^0_{i, \textsf{pre}}|D_i = 0]}_{\textsf{(B)}} \]
2つの個体、2期の場合
\[ y_{it} = \alpha + \delta (D_i \times P_t) + \beta D_{i} + \gamma P_{t} + \varepsilon_{it} \]
\[ y_{it} = 48.7 + 6.2 (D_i \times P_t) - 3.1 D_{i} - 8.3 P_{t} + \varepsilon_{it} \]
Name | \(y_{it}\) | \(D_{i}\) | \(P_{t}\) | \(D_i \times P_t\) |
---|---|---|---|---|
東山区 | 45.6 | 1 | 0 | 0 |
東山区 | 43.5 | 1 | 1 | 1 |
北区 | 48.7 | 0 | 0 | 0 |
北区 | 40.4 | 0 | 1 | 0 |
\[ \hat{y}_{it} = \alpha + \delta (D_i \times P_t) - \beta D_{i} - \gamma P_{t} \]
\[ y_{it} = \alpha + \delta D_{it} + \gamma_i + \lambda_t + \varepsilon_{it} \]
lm()
等)は過小評価される
トレンド変数と個体ダミー変数の交差項を投入
ID | 区 | 年 | 北区 | 東山区 | 西京区 | 1996年 | 2000年 | 2004年 | 電子投票 | 投票率 | トレンド |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 北区 | 1996 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0.447 | 1 |
2 | 東山区 | 1996 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0.430 | 1 |
3 | 西京区 | 1996 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0.407 | 1 |
4 | 北区 | 2000 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0.487 | 2 |
5 | 東山区 | 2000 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.456 | 2 |
6 | 西京区 | 2000 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0.460 | 2 |
7 | 北区 | 2004 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0.404 | 3 |
8 | 東山区 | 2004 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0.435 | 3 |
9 | 西京区 | 2004 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0.381 | 3 |
線形回帰モデル(二元配置固定効果モデル)
lm_robust()
並行トレンドの仮定が満たされていないことは検知可能(逆は不可能)
通常のデータ | プラセボ | |
---|---|---|
注:カッコ内は標準誤差 | ||
eVote | 0.047(0.005) | -0.009(0.006) |
Num.Obs. | 55 | 44 |
区固定効果 | Yes | Yes |
年固定効果 | Yes | Yes |
Synthetic Control Method(SCM)
統制群に重みを付けて合成する
統一(1990年)までのトレンドが類似(しているように見える)
統一するまでのトレンドがほぼ一致
年 | 西ドイツ | 反実仮想 | 差分 | 累積 |
---|---|---|---|---|
1960 | 2,284 | 2,275 | 9 | |
1961 | 2,388 | 2,397 | −9 | |
1962 | 2,527 | 2,526 | 1 | |
1963 | 2,610 | 2,621 | −11 | |
... | ... | ... | ... | ... |
1988 | 17,786 | 17,769 | 17 | |
1989 | 18,994 | 19,005 | −11 | -11 |
1990 | 20,465 | 20,394 | 71 | 60 |
1991 | 21,602 | 21,574 | 28 | 88 |
1992 | 22,154 | 22,326 | −172 | -84 |
1993 | 21,878 | 22,697 | −819 | -903 |
1994 | 22,371 | 23,700 | −1,329 | -2233 |
... | ... | ... | ... | ... |
2001 | 27,449 | 33,659 | −6,210 | -27295 |
2002 | 28,348 | 34,348 | −6,000 | -33295 |
2003 | 28,855 | 35,041 | −6,186 | -39481 |
差分の差分法