回帰分析におけるt値の求め方

回帰分析のt値とは何か?と、回帰分析におけるt値の求め方(計算式)についてまとめていきます。
回帰分析は、大きく分けると

  1. 説明変数が1つの単回帰分析
  2. 説明変数が2つ以上の重回帰分析

の2つあります。

この2つの回帰分析、単回帰分析と重回帰分析では、t値の求め方が変わるようなので、注意してください。

(書いている本人は、単回帰分析と重回帰分析でt値の求め方が変わるのか分かっていない…)

回帰分析のt値とは

t値は、モデルの説明変数のそれぞれについて、計算されます。
このt値が「2」以上なら、その説明変数は、「統計学的に、モデルに組み込むのは良い」または、「統計学的に支持される」ことを意味する。
逆に、t値が「1」未満なら、「統計学的に、支持できない」ことになります。つまり、説明変数として、用いるのは宜しくない、ということを意味する。

偏回帰係数について、「説明変数の被説明変数への効果が0である」=「偏回帰係数が0」という帰無仮説を検定する。

両側5%の基準での検定
t値の絶対値が2未満
→帰無仮説が誤っているとは考えにくい

t値の絶対値が2以上
→帰無仮説が誤っていると考え、効果のある変数だと見なせる

$$
t値 = \frac{推定係数}{推定係数の標準誤差}
$$

回帰分析のt値の求め方

回帰分析におけるt値の求め方について紹介します。

単回帰分析(説明変数の数が1つ)の時と、重回帰分析(説明変数の数が2つ以上)の時では、t値の求め方が違うみたい??なので別々に紹介します。

単回帰分析におけるt値の求め方

回帰線の傾きを検定する。


\(\hat{ \beta }\)は、平均が\(\beta\)で、分散が\(\frac{\sigma^2}{\sum{(x_i-\bar{x })^2}}\)の正規分布に従う。
\(\sigma^2\)は、誤差分散を表す。

この誤差分散は、未知なので残差平方和\(SS_e\)を使って標本から推定する。

$$
\begin{eqnarray}
\sigma^2 \rightarrow \hat{ \sigma^2 } &=& \frac{SS_e}{n-2} \\
&=& \frac{\sum{(y_i – \hat{y_i})^2}}{n-2}
\end{eqnarray}
$$

\(\hat{\sigma^2}\)を用いて、\(\hat{\beta}\)のt値を求める。

$$
\begin{eqnarray}
t &=& \frac{\hat{\beta}-\beta}{\sqrt{ \frac{\hat{\sigma^2}}{\sum{(x_i-\bar{x})^2}}}} \\
&=& \frac{\hat{\beta}-\beta}{\sqrt{ \frac{SS_e}{(n-2)\sum{(x_i-\bar{x})^2}}}}
\end{eqnarray}
$$

帰無仮説を\(\beta=0\)を代入する。

$$
t = \frac{\hat{\beta}}{\sqrt{\frac{SS_e}{(n-2)\sum{(x_i-\bar{x})}}}}
$$

$$
|t| > t_{n-2,\frac{\alpha}{2}}
$$
上の条件の時、帰無仮説を棄却する。

おおよそ有意水準が0.05の場合、\(2 \leq |t|\)ならば、帰無仮説を棄却する。

重回帰分析におけるt値の求め方

重回帰分析におけるt値の求め方は下の計算式です。

$$
\begin{eqnarray}
t値 &=& \frac{\beta_i}{\sqrt{SS^{ii} \times V_e}} \\
&=& \frac{\beta_i}{\sqrt{SS^{ii} \times \frac{SS_e}{n-p-1}}}
\end{eqnarray}
$$

それぞれの文字の説明

誤差分散の推定

\(SS_e\)は、残差平方和です。
$$
\begin{eqnarray}
SS_e &=& \sum{(\hat{y_i} -y_i)^2} \\
\end{eqnarray}
$$

\(\frac{SS_e}{n-p-1}\)は、誤差分散を表しています。
$$
\sigma^2 \rightarrow \hat{ \sigma^2 } = \frac{SS_e}{n-p-1}
$$

次のようにVeで表すこともある。
$$Ve = \frac{SS_e}{n-p-1}$$

nはデータの数、pは説明変数の数を表している。

n-p-1は、誤差の自由度を表す。

\(SS^{ij}\)

\(SS^{ij}\)は、偏差平方和・偏差積和の行列\(SS_{ij}\)の逆行列を表しています。

偏差平方和・偏差積和の行列\(SS_{ij}\)について、
説明変数の数は、pなので、\(SS_{ij}\)はp次正方行列になる。

$$
\begin{eqnarray}
SS_{ij} = \left(
\begin{array}{cccc}
SS_{ 11 } & SS_{ 12 } & \ldots & SS_{ 1p } \\
SS_{ 21 } & SS_{ 22 } & \ldots & SS_{ 2p } \\
\vdots & \vdots & \ddots & \vdots \\
SS_{ p1 } & SS_{ p2 } & \ldots & SS_{ pp }
\end{array}
\right)
\end{eqnarray}
$$

\(SS^{ij}\)は、\(SS_{ij}\)の逆行列を表すので、下のようになる。
$$
\begin{eqnarray}
SS^{ij} &=& \left(
\begin{array}{cccc}
SS_{ 11 } & SS_{ 12 } & \ldots & SS_{ 1p } \\
SS_{ 21 } & SS_{ 22 } & \ldots & SS_{ 2p } \\
\vdots & \vdots & \ddots & \vdots \\
SS_{ p1 } & SS_{ p2 } & \ldots & SS_{ pp }
\end{array}
\right)^{-1} \\
\\
&=&\left(
\begin{array}{cccc}
SS^{ 11 } & SS^{ 12 } & \ldots & SS^{ 1p } \\
SS^{ 21 } & SS^{ 22 } & \ldots & SS^{ 2p } \\
\vdots & \vdots & \ddots & \vdots \\
SS^{ p1 } & SS^{ p2 } & \ldots & SS^{ pp }
\end{array}
\right)
\end{eqnarray}
$$

偏差平方和・偏差積和は、次のような式で、表される。
偏差平方和は、分散にデータ数を掛けたもの
偏差積和は、共分散にデータ数を掛けたものである。

$$
SS_{ij} = \sum{(x_{ik} – \bar{x_i})(x_{jk} – \bar{x_j})}
$$

\(SS^{ii}\)は、対角成分を表す。

参考

http://www.soumu.go.jp/ict_skill/pptx/ict_skill_3_4.pptx
http://lbm.ab.a.u-tokyo.ac.jp/~omori/kokusai/kokusai08_1218.html
https://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/rp12/rp12.htm

回帰分析のp値

係数のp値とは、係数が0の場合に、実際に分析して出る係数の値がA以上になる確率のこと。
どのくらいp値が小さければ、効果がないという仮説を否定してよいかの基準は、0.05

p値は、それぞれの偏回帰係数の有意確率を表します。

一般的に、有意確率が5%を下回っているとその説明変数は目的変数に対して「関係性がある」、その偏回帰係数が有意であると統計的に判断する。

(自由度の高い)回帰分析において、t値が2以上2.6未満の範囲に入った場合は「両側5%基準では帰無仮説が棄却できる(⇒両側5%で有意)」の一方で「両側1%基準では帰無仮説が棄却できない(⇒両側1%では有意ではない)」ことになります

1%と5%の間に境目となる基準の値があったはずで、P-値はこの境目となる値を導出しています

参考

https://xica.net/magellan/marketing-idea/stats/tvalue-and-pvalue/

http://www.soumu.go.jp/ict_skill/pptx/ict_skill_3_4.pptx

おすすめ