ミクロ政治データ分析実習

6/ 変数の尺度とデータセットの入手

宋(そん) 財泫(じぇひょん)

関西大学総合情報学部

授業を始める前に

分析単位、仮説のような概念が登場するが、これらについては後期の「マクロ政治データ分析実習」の前半（リサーチデザイン）で解説する。
本日の内容は前期の内容とあまり関係のない内容だが、後期の授業は自分でデータセットを構築/入手して、独自の問いに対する分析行う（= 期末レポート）必要があるため、非常に重要。

データの形

データの構造は基本的に「四角形」

ID	都道府県	自民得票率	財政力指数	高齢者比	第一次産業従事者比率
1	北海道	32.820	0.435	29.190	6.995
2	青森県	40.440	0.341	30.214	12.029
3	岩手県	34.900	0.352	30.489	10.644
4	宮城県	36.680	0.614	25.860	4.362
5	秋田県	43.460	0.309	33.942	9.621
6	山形県	42.490	0.351	30.901	9.194
7	福島県	33.820	0.533	28.779	6.483
8	茨城県	40.640	0.637	27.103	5.640
9	栃木県	38.780	0.640	26.342	5.516
10	群馬県	42.060	0.625	28.081	4.963
11	埼玉県	32.300	0.766	25.177	1.592
12	千葉県	37.790	0.778	26.166	2.786
13	東京都	34.370	1.101	23.171	0.387
14	神奈川県	34.920	0.908	24.209	0.834
15	新潟県	43.660	0.451	29.994	5.760
16	富山県	44.160	0.467	30.822	3.266
17	石川県	48.090	0.485	28.070	3.019
18	福井県	45.290	0.394	28.890	3.714
19	山梨県	37.360	0.396	28.734	7.183
20	長野県	35.270	0.496	30.391	9.057
21	岐阜県	39.710	0.534	28.530	3.086
22	静岡県	37.470	0.720	28.200	3.802
23	愛知県	34.320	0.921	24.216	2.072
24	三重県	33.670	0.585	28.321	3.578
25	滋賀県	37.850	0.550	24.423	2.645
26	京都府	31.180	0.584	27.781	2.052
27	大阪府	22.120	0.765	26.473	0.505
28	兵庫県	31.710	0.634	27.292	1.968
29	奈良県	33.510	0.421	28.809	2.625
30	和歌山県	39.610	0.327	30.978	8.757
31	鳥取県	41.620	0.266	29.865	8.782
32	島根県	48.240	0.252	32.707	7.758
33	岡山県	37.870	0.518	28.890	4.574
34	広島県	39.930	0.602	27.778	3.091
35	山口県	46.750	0.440	32.202	4.808
36	徳島県	38.440	0.329	31.142	8.191
37	香川県	44.070	0.476	30.152	5.263
38	愛媛県	43.570	0.425	30.812	7.343
39	高知県	37.010	0.258	32.994	11.417
40	福岡県	36.520	0.634	26.092	2.779
41	佐賀県	43.530	0.341	27.791	8.442
42	長崎県	41.700	0.326	29.758	7.422
43	熊本県	46.540	0.399	28.912	9.589
44	大分県	39.440	0.371	30.695	6.678
45	宮崎県	40.110	0.333	29.595	10.790
46	鹿児島県	45.970	0.333	29.568	9.319
47	沖縄県	27.820	0.332	19.760	4.510

行と列

行：ケース
- 人、クラス、都道府県、国、年など
- 分析単位に注意すること
列：変数
- 性別、年齢、人口、成績など
一行目は変数名を表し、ヘッダー（header）とも呼ばれる。

分析単位

各行（ケース）は分析単位を表すこと

例1
例2
例3
例4

仮説：高齢者ほど政党Xに投票する
分析単位は「人」$\Rightarrow$「一人 = 一行」
- 同じ人が2行以上登場することはない。

ID	年齢	政党Xへの投票有無
1	41	1
2	28	0
3	47	1
4	34	0
5	46	0
6	49	1
7	26	1
8	53	0
9	50	0
10	60	0

仮説：高齢者が多い都道府県ほど政党Xの得票率が高い
分析単位は「都道府県」$\Rightarrow$「一都道府県 = 一行」
- 同じ都道府県が2行以上登場することはない。

ID	都道府県	政党Xの得票率	高齢者比
1	北海道	32.82	29.19036
2	青森県	40.44	30.21411
3	岩手県	34.90	30.48886
4	宮城県	36.68	25.85974
5	秋田県	43.46	33.94153
6	山形県	42.49	30.90099
7	福島県	33.82	28.77917
8	茨城県	40.64	27.10318
9	栃木県	38.78	26.34192
10	群馬県	42.06	28.08067

仮説：所得が高い年ほど、人間開発指数も高い。
分析単位は「年」$\Rightarrow$「一年 = 一行」
- 同じ年が2行以上登場することはない。

ID	年	一人当たりPPP-GDP	人間開発指数
1	2013	$39,436.81	0.909
2	2014	$39,604.12	0.910
3	2015	$40,959.27	0.913
4	2016	$40,640.54	0.914
5	2017	$41,408.95	0.916
6	2018	$42,714.55	0.917
7	2019	$43,350.97	0.918
8	2020	$42,226.32	0.917
9	2021	$45,416.04	0.920
10	2022	$49,210.59	0.290

同じ対象に対し、複数回観察を行う「パネルデータ」というものもある。
分析単位は「人・国・都道府県 $\times$ 時間」

ID	国	年	一人当たりPPP-GDP	人間開発指数
1	China	2020	$17,099.01	0.781
2	China	2021	$19,387.47	0.785
3	China	2022	$21,385.60	0.788
4	Japan	2020	$42,226.32	0.917
5	Japan	2021	$45,416.04	0.920
6	Japan	2022	$49,210.59	0.920
7	Korea	2020	$44,725.86	0.922
8	Korea	2021	$48,853.03	0.926
9	Korea	2022	$53,759.58	0.929

尺度

変数の尺度

多くの場合、間隔尺度と比率尺度の区別は行わない

離散変数 (Discrete variable)
- 名目尺度 (Nomial scale)
- 順序尺度 (Ordinal scale)
連続変数 (Continuous variable)
- 間隔尺度 (Interval scale)
- 比率尺度 (Ratio scale)

名目尺度

「範疇尺度」、「名義尺度」とも

例) 男性は0、女性は1
例) 北海道 = 1、青森 = 2、…、鹿児島 = 46、沖縄 = 47

数字は各項目を.kenten[識別]するものであり、数字として意味を持たない

沖縄 - 北海道 = 鹿児島?
男性 = 1、女性 = 0でも問題ない

できること

度数 (Frequency): 女性は何人? 大阪出身は何人?
最頻値 (Mode): 最も多い出身地はどこ?

順序尺度

「大小」に関する情報のみを持つ

例) 1位、2位、3位、···
例)とても幸せ、どちらかといえば幸せ、···、とても不幸
1位と2位の差 $\neq$ 2位と3位の差
幸せの基準は人それぞれ

できること

名目尺度でできること
順位 (Order, Rank): 1 位 > 2 位 > 3 位
中央値 (Median): 真ん中は何か

間隔尺度

わりと少ない尺度

例として「気温」
「0」の意味はない
- 0 $^\circ$C は「温度がない」ではない
- 0 $^\circ$C = 32 $^\circ$F
掛け算ができない
- 2 $^\circ$Cは1 $^\circ$Cより2倍暑い?

できること

順序尺度でできること
足し算と引き算
平均値 (Average): 平均気温
差の比較: 30度 − 20度 = 10度 − 0度

比率尺度

最も一般的な変数

「0」の意味あり
- 0円=お金がない
- 0 Km/s. = 動かない

できること

間隔尺度でできること
掛け算と割り算: 1 万円 × 2 = 2 万円

尺度の比較

尺度によって使える統計量・手法が異なる

	名目	順序	間隔	連続
順位（大小関係）		$\bigcirc$	$\bigcirc$	$\bigcirc$
度数（頻度）	$\bigcirc$	$\bigcirc$	$\bigcirc$	$\bigcirc$
最頻値	$\bigcirc$	$\bigcirc$	$\bigcirc$	$\bigcirc$
中央値		$\bigcirc$	$\bigcirc$	$\bigcirc$
平均値			$\bigcirc$	$\bigcirc$
差の比較			$\bigcirc$	$\bigcirc$
足し算と引き算			$\bigcirc$	$\bigcirc$
掛け算と割り算				$\bigcirc$
0の有無				$\bigcirc$

変数と尺度

$\bigcirc\bigcirc$ 尺度で測定された変数 $\rightarrow$ $\bigcirc\bigcirc$ 変数

同じ対象でも用いる尺度は複数あり得る。
例) 年収
- 順序： ∼200万円、201万円∼400万円、401万円∼
- 比率： 178万円, 308万円, 968万円, 1兆300円, ···
例) 年齢
- 順序： 20代未満, 20代, 30代, 40代, 50代, 60代以上
- 比率： 88歳, 37歳, 11歳, 130歳, ···

尺度の変換

情報量の多さは

比率 > 間隔 > 順序 > 名目
情報量の多い尺度は下位の尺度へ変換が可能
- 例) 358万円 (比率) $\rightarrow$ 「300万円以上、400万円未満」 (順序)
- その逆は不可能
- 例) 「300万円以上、400万円未満」 $\rightarrow$ 301万? 358万? 399万?

データセットの構築

データセット構築の手順

仮説を立てる。
- データから仮説を立てる方法もあるが、現時点では非推奨
分析単位を明らかにする。
- 個人? 自治体? 国?
必要な変数を特定する。
- 入手可能な変数か。
- 個人の投票先? 各政党の都道府県別得票率?
  - とりわけ「個人」が単位のデータ（世論調査データ等）は入手難易度が高い。
公開済みのデータが存在するか。
- あればダウンロード
- ない場合は世論調査の実施 or データセットの構築

データセット構築の2つの方法

分析単位が国、自治体、選挙区などの場合（集計データ）
- 既に構築されているデータをダウンロード
  - 非常に稀なケース; 自分の問いに答えるためのピッタリのデータはなかなか存在しない。
- 自力で構築（政府統計などを結合）
分析単位が個人の場合（個票データ）
- データ・アーカイブから公開されている世論調査データを入手する。
- 自分で世論調査を実施する。
  - 非常に高い（金銭的）コストを伴う。

集計データ：自力で構築する

公開されているデータの計算・結合

ほとんどの場合、集計データ（市区町村、都道府県、国、年など）
多くの場合、無料で入手することが可能
- 例) 財政力指数と政党得票率
- 例) 民主化指標と武力紛争の頻度
- 例) 一人当たりたこ焼き消費量と投票率

信頼できる機関のデータを利用すること
- 政府機関、企業、研究所など「データのミスについて責任の所在が明確な機関」

個票データ：公開データの利用

SSJDA, ICPSR などのデータアーカイブを利用
一部の大規模調査は専用ホームページで入手
学術論文で使われたデータなら著者がデータを公開する場合も (Harvard Dataverse、著者のHPなど)
データの入手先は多岐にわたるため、見つからない場合、指導教員、授業担当教員と相談すること
- 学部生の場合、指導教員の許可がないとダウンロードできないデータも
- とりわけ、日本のデータは条件が厳しい
参考) 佐藤博樹・池田謙一・石田浩. 2000. 『社会調査の公開データ―2次分析への招待』東京大学出版会.

個票データ：自力で構築する

分析単位が「人」であり、公開されているデータがない場合

世論調査を実施
一般的に高額（数万〜数百万円）
世論調査を行う前に社会調査法の知識は必須
- 調査倫理
- 調査設計の方法
- サンプリング
  - SNSでアンケートを拡散して収集したデータは「日本人の意識」、「若者の行動」と解釈できない。

実習

実習内容

既に公開されている世論調査データの入手
- データ・アーカイブの利用: SSJDAの例 (https://csrda.iss.u-tokyo.ac.jp/)
- 調査の独自HPから入手: 世界価値観調査の例 (https://www.worldvaluessurvey.org/)

政府統計などを入手時、独自のデータセットを構築

データ・アーカイブの利用：SSJDAの例

仮説: 高校時代に主権者教育を受けた若年層ほど2016年参院選で投票する傾向がある。

分析単位: 個人 (若年層)　$\rightarrow$　世論調査データが必要
必要な変数
- 高校時代に主権者教育を受けたか否か
- 2016年参院選で投票したかどうか

手順

SSJDAへアクセス (https://csrda.iss.u-tokyo.ac.jp/)
キーワードで検索（例: 「若年選挙」）
- 明るい選挙推進協会の「新有権者等若年層の参院選投票後の意識調査，2016」など
調査票を確認し、必要な変数が含まれているかを確認
- Q9とQ17など
教員（ゼミ教員や授業担当者）と相談する
- 学部生は教員経由でしか入手できない　$\rightarrow$　教員による代理申請
- 大学院生は指導教員の事前承認の下で入手可能

調査ホームページの利用：WVSの例

仮説: 日本において高学歴、かつ平等より自由を重視するの人ほど民主主義を重視する

分析単位: 個人　$\rightarrow$　世論調査データが必要
必要な変数
- 学歴、平等と自由のどちらを重視するか
- 民主主義の重視程度

手順

WVSのHPへアクセス（https://www.worldvaluessurvey.org/）
Data and Documentation　$\rightarrow$　Data Download　$\rightarrow$　Wave 7 (2017-2020)
Japan 2019を選択
Questionnaire（質問票; 日本語）とCodebook（コードブック; 英語）を確認
- 質問票: F10a (Q275)、問37 (Q149)、問70 (Q250)
- カッコ内はコードブック上の番号（データの変数名はコードブック基準）
- 質問票とコードブックの設問番号は一致しないため注意が必要
Excel形式のデータをダウンロード (WVS Wave 7 Japan Excel v2.0)

データ構築の例

仮説: 2023年7月の参院選において財政力指数が低く、高齢者の比率が高い都道府県ほど、投票率が高い

分析単位：都道府県
必要な変数
- 都道府県ごとの財政力指数（googleで「財政力指数」）
- 都道府県ごとの65歳以上人口比（e-statで「国勢調査」）
  - 1. 都道府県ごとの人口、(2) 65歳以上人口が必要
- 都道府県ごとの2023年参院選における投票率（googleで「総務省選挙結果」）

手順

各データの公表先からデータをダウンロード
必要な変数のみを抜粋
表計算ソフト (Excel, Numbers, LibreOffice Calc)などを利用し、一つのデータとして統合
- 必要に応じて計算も行う。

ID	Pref	Finance	Above65	Turnout
1	北海道	0.44595	32.26170	53.97137
2	青森県	0.34205	33.69179	49.48735
3	岩手県	0.35856	33.81424	55.37885
4	宮城県	0.59731	28.43901	48.79890
5	秋田県	0.31066	37.60177	55.55781
6	山形県	0.36209	33.98365	61.85932
7	福島県	0.52158	31.82748	53.39401
8	茨城県	0.63115	30.30695	47.21866
9	栃木県	0.61976	29.56807	46.98227
10	群馬県	0.61177	30.88517	48.49059
11	埼玉県	0.74351	27.33047	50.24647
12	千葉県	0.75112	28.02414	50.00762
13	東京都	1.07301	23.29183	56.54098
14	神奈川県	0.85330	25.86952	54.49929
15	新潟県	0.45700	32.97734	55.30748
16	富山県	0.46248	32.92857	51.36568
17	石川県	0.49718	30.17642	46.40330
18	福井県	0.40511	31.06232	55.31287
19	山梨県	0.38432	31.14433	56.22731
20	長野県	0.50787	32.28879	57.70064
21	岐阜県	0.53634	31.11373	53.58751
22	静岡県	0.69278	30.66518	52.96779
23	愛知県	0.88545	25.83282	52.17229
24	三重県	0.58573	30.58887	52.78095
25	滋賀県	0.54836	26.71561	54.58415
26	京都府	0.56803	29.47203	50.90311
27	大阪府	0.75219	27.65828	52.44176
28	兵庫県	0.62258	29.32041	51.61156
29	奈良県	0.41700	31.72145	55.90187
30	和歌山県	0.32297	33.42466	52.41777
31	鳥取県	0.27259	32.47166	48.92498
32	島根県	0.25379	34.66566	56.36724
33	岡山県	0.51083	30.67966	47.22801
34	広島県	0.59332	29.79257	46.79144
35	山口県	0.43531	34.84154	47.59254
36	徳島県	0.31217	34.34980	45.71976
37	香川県	0.46068	32.14574	49.22103
38	愛媛県	0.42493	33.43253	48.80868
39	高知県	0.26105	35.61885	47.36278
40	福岡県	0.62808	28.21122	48.76012
41	佐賀県	0.34218	30.85767	51.11522
42	長崎県	0.33484	33.16014	48.71595
43	熊本県	0.40305	31.66006	49.12638
44	大分県	0.37501	33.53593	52.98119
45	宮崎県	0.34168	32.85051	47.51680
46	鹿児島県	0.33756	32.70230	48.62981
47	沖縄県	0.36177	22.70253	50.53120

可視化は第12回講義以降で解説

線形回帰分析は後期の「マクロ政治データ分析実習」で解説


Call:
lm(formula = Turnout ~ Finance + Above65, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-5.673 -2.663  0.015  2.597 10.376 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  46.0475    10.3292   4.458 5.64e-05 ***
Finance       2.7695     4.6641   0.594    0.556    
Above65       0.1305     0.2718   0.480    0.634    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.673 on 44 degrees of freedom
Multiple R-squared:  0.007994,  Adjusted R-squared:  -0.0371 
F-statistic: 0.1773 on 2 and 44 DF,  p-value: 0.8381

	名目	順序	間隔	連続
順位（大小関係）		\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)
度数（頻度）	\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)
最頻値	\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)
中央値		\(\bigcirc\)	\(\bigcirc\)	\(\bigcirc\)
平均値			\(\bigcirc\)	\(\bigcirc\)
差の比較			\(\bigcirc\)	\(\bigcirc\)
足し算と引き算			\(\bigcirc\)	\(\bigcirc\)
掛け算と割り算				\(\bigcirc\)
0の有無				\(\bigcirc\)