主成分分析(PCA)のメモ

主成分分析とは

主成分分析は、観測変数から新しい変数(主成分という)を合成する分析手法です。

複数の観測変数を単純化し、標本が持っている情報をうまく要約します。

主成分は、観測データと直線との垂線の距離を最小になるような直線を引く。

(以下のようにも言える)
観測データの重心を通るように、最も散らばっている(分散の大きい)ところに直線を引く。

観測データの持つ情報量(主成分の固有値)が最大になるようなところに直線を引く。

主成分分析では、一般的に第1主成分・第2主成分を使って、2次元のグラフで表す。

主成分分析の流れ

  1. 主成分と主成分得点を求める
  2. 分析結果の制度を確認する
  3. 分析結果を検討する

説明変数uとし、主成分Zとする。

$$Z = a_1u_1 + a_2u_2 + \cdots +a_pu_p$$
aは、Zへの影響度と解釈できる。

  1. 変数ごとに標準化
  2. 相関行列を求める
  3. 相関行列SSは、正方行列でもあり、対称行列でもある。

  4. 固有値、固有ベクトルを求める
  5. $$SSx = \lambda x$$

    $$\lambda = (\lambda_1, \cdots, \lambda_n)$$
    $$u = (u_1, \cdots, u_n)$$

    \(\lambda\)は、固有値
    uは、固有ベクトルです。

    第k主成分の寄与率
    $$\frac{\lambda_k}{変数の個数}\times 100$$

メモ

ラグランジュの未定乗数法
固有方程式

因子分析
因子分析は、観測変数に共通する因子を探し出す手法

観測変数の背後に何らかの共通性を探す

おすすめ