KH Coder

Homepage : [Link] cf) How to install KH Coder on OS X

  • 世界的に最もよく使われているツールはWordStatだという。そのほか政治学者が開発したDictionというのもある。日本語のツールはWordMinerが定評のようだが、高い。無料が良いよね。

 

Grounded Theory Approach

  1. データの重要そうな部分にコードを振っていき
  2. コード間の関連を手作業で整理しつつ
  3. データに通底する理論を考える

Qualitative Data Analysis Softwareの種類

  • Atlas.ti
  • Nvivo
  • MAX QDAなど

計量テキスト分析の2段階

  1. 自動処理・多変量解析を活用し、予断を交えずにデータの全体像を探る(機械的)
  2. コーディングを行うことで、分析者の観点を活かしてコンセプトを取り出し、分析を深める(主観的)
    ⇒計量分析で特徴を見つけたらそれを質的分析。またそこから得られたものをまた計量分析:循環的関係

多変量解析(第1段階)

  1. (対応分析のプロット+バブル型のグラフ)原点に近い語句ほど特徴のない語句 ⇔ 端っこの方は特徴のある語句
    長所1:分析者の恣意性を排除する
    長所2:探索の助け及び第三者と共有できる資料の生産
    長所3:データの全体像が掴める
  2. KH Coder対応分析の結果、近くにいる赤の四角は似ていると解釈していい。
    公約分析の場合、候補者間の疑似性が分かるかも!

コーディング(第2段階)

  1. 自動処理で取り出せなかったコンセプト(意味・事柄)を拾い上げる
  2. それからグループごとに頻度や推移を見ることで何か得るものがある・・・かも?
    分析者が注目したいコンセプトについて分析する
    コーディングルールは原則として公開する
    コーディングルールの重要性
  3. コーディング後のクロス集計のバブルプロットを見ると赤の四角と青の四角がある。赤は同じ行において最も大きいことを意味する(もちろんこれはカラーの場合)。

これらの方法の長所

  • データ全体を見渡せる
  • ドラマが生じている部分(引用・解釈すべき部分)が特定できる
  • データの探索効率と信頼性の向上

その他

低頻度語からも面白いものが発見できるかも知れない


 

質問紙調査における自由回答項目の利点

  1. 網羅的で完全な選択肢の基準は困難
    1. 上手くききだせるような選択肢とは?
    2. 選択肢の存在自体が肯定的反応を誘発(選択肢は無限ではないからね)

→自由回答ならば探索的な調査が可能

  1. 線形モデルの解釈の助けとしても
    1. 収入の効果ならば理解しやすいかもしれない
    2. しかし学歴の効果となると?いったい学歴のどのような点がその効果をもたらしたのか

⇒つまり、自由回答の分析によって「なぜ?」に答える事ができるかもしれない

⇒対応分析を用いる


 

ケースの数は?

  • はっきりした基準はない。でもまあ、50~150は要るよねーという人が相対的に多いそう

 

共起ネットワーク図に関して

  • 共起ネットワークの図では語句間の関連の強さは表示されない。線の太さによる違いが分かるだけ(少なくてもKH Coderではね)。その強さの数値化はできるという。Rソースで保存し、Rで分析する方法がある。その方法はKH Coderのホームページの掲示板に載っている[Link]。
    ⇒Jaccard係数を求めば良いのかな?

 

文字数の分布は?

  • この世は正規分布!!!!
  • と言いたいが、実はそうでもないらしい。
  • たとえば、世論調査の自由記述データを用いて、男女の文字数の違いを見たいなら、文字数を算出してそのままt検定!というのが普通
  • ただし、t検定はデータが正規分布をしていることを前提としている。そこでサンプルが少ないならt分布になるわけだし
  • しかし、文字数データは正規分布でなくポアソン分布に近いことが知られている。したがって、t検定は無理っぽ
  • したがって、ノンパラメトリック手法としてウィルコックスン検定(Wilcoxon test)が適切らしい

 

Resource

Text Mining(Method)

  • Text Classification and Naïve Bayes [Link]

R

  • Hands-On Data Science with R Text Mining [Link]
  • (Korean NLP) KoNLP [GitHub] [PDF]
  • (Korean NLP) HanNanum [Link]

Python

  • 자바, 미안하다! 파이썬 한국어 NLP [Slideshare]