相関分析とデータの種類

相関分析

変数間の関連性の強さを調べる。

相関係数などの統計量を使って、変数間の関連性を分析する。

データの種類によって、扱う統計量が変わる。

  1. 量的データ×量的データ
  2. 量的データ×質的データ
  3. 質的データ×質的データ

以上の3つ変数間のパターンがある。

相関係数:量的データ×量的データ

量的データ×量的データの場合、変数間の関連性を調べるには、相関係数を用いる。

よく使われる相関係数は、
$$r^2 = \frac{\sigma_{xy}}{\sigma_x \sigma_y}$$

これはピアソンの積率相関係数と呼ばれる。

相関比:量的データ×質的データ

量的データ×質的データの場合は、相関比を用いる。

$$\frac{グループ間平方和}{全体の偏差平方和}$$

数式では、下の式で表させる。

$$\eta^2 = \frac{\displaystyle\sum_{i=1}^{a}n_i(\bar{x_i}-\bar{x})^2}{\displaystyle\sum^{a}_{i=1} \sum^{n_i}_{j=1}(x_{ij}-\bar{x})^2}$$

aは、カテゴリーの総数を表している。
\(n_i\)は、カテゴリーiの個数を表している。

参考

連関係数:質的データ×質的データ

質的データ×質的データの場合は、連関係数を用いる。

クロス集計表における行要素と列要素の連関の度合いを表す係数のこと。ファイ係数やクラメールVの、ユールのQ、カッパ係数、グッドマン=クラスカルのガンマ、グッドマン=クラスカルのタウ、リスク比、オッズ比などがある。
https://bellcurve.jp/statistics/glossary/733.html

参考

順序データと相関係数

ポリコリック相関係数

スピアマンの順位相関係数

ケンドールの順位相関係数

相関係数の種類だけあげときます。

参考

参考

https://www.neclearning.jp/sample_text/DB101-1.pdf