数学がわからない

日々の勉強をアウトプットする。

2群の平均の差の検定で用いる検定統計量

ここでは、2グループ(群)の平均の差を統計的に検討する「2群の平均の差の検定」において、用いる検定統計量についてまとめる。

(1)対応のない(独立した)2群の差の検定

比較する2グループが独立しており、関連がない(例えば同じ人物のビフォーアフターなどではない)とき、「対応のない(独立した)2群」という。

(1.1)母分散が既知または大標本で、かつ母分散が等しい場合

比較する2グループの標本平均を\bar{x}_1, \bar{x}_2、標本サイズをn_1,n_2とする。
さらに2グループで等しく、既知または大標本の母分散を\sigma^2とすると、検定統計量は次式になる。

 z_{\bar{x}_1 - \bar{x}_2} = \displaystyle \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{ \sigma^2 \left( \displaystyle \frac{1}{n_1} + \displaystyle \frac{1}{n_2} \right)}} \tag{1}

  • 正規分布表を用いて検定する。
  • 自由度は考えなくてよい。
  • 前提を満たす状況は一般に発生しない(実際はこの統計量を使うことは考えにくい)。

(1.2)母分散が未知で小標本の場合

比較する2グループの標本平均を\bar{x}_1, \bar{x}_2、標本サイズをn_1,n_2とする。
(1.1)と異なり、母分散は未知であるため、比較する2グループそれぞれの不偏分散\hat{\sigma}_1^2,\hat{\sigma}_2^2を求めて検定統計量計算に用いる。ただし、比較する2グループの分散が等しいと仮定できるか否かが問題になる。

(1.2.1)両群の分散が等しい(等分散の検定により等分散性が仮定できる)場合

 t_{\bar{x}_1 - \bar{x}_2} = 
\displaystyle \frac
    {\bar{x}_1 - \bar{x}_2}
    {\sqrt
        {\displaystyle \frac{(n_1-1)\hat{\sigma}_1^2 + (n_2-1)\hat{\sigma}_2^2}{(n_1-1)+(n_2-1)} 
         \left( \displaystyle \frac{1}{n_1} + \displaystyle \frac{1}{n_2} \right)
        }
    } 
\tag{2}

  • t分布表を用いて検定する。
  • 自由度dfは、df=(n_1-1)+(n_2-1)
(1.2.2)両群の分散が等しくない(等分散の検定により等分散性が仮定できない)場合

 t'_{\bar{x}_1 - \bar{x}_2} = \displaystyle \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\displaystyle \frac{\hat{\sigma}_1^2}{n_1} + \displaystyle \frac{\hat{\sigma}_2^2}{n_2}}}
\tag{3}

  • t'値は厳密にはt分布に従わないためt分布表をそのまま用いることはできない。
  • 自由度を次の式で計算してt分布表を使う検定をウェルチの検定と呼ぶ。

 df = \displaystyle \frac{\left( \displaystyle \frac{\hat{\sigma}_1^2}{n_1} + \displaystyle \frac{\hat{\sigma}_2^2}{n_2} \right)^2}
                                     {\displaystyle \frac{\hat{\sigma}_1^4}{n_1^2(n_1-1)} + \displaystyle \frac{\hat{\sigma}_2^4}{n_2^2(n_2-1)}}
\tag{4}

  • 等分散の検定で等分散性が仮定できない場合に使う近似方法。使用可否については諸説ある。

(2)対応のある(関連した)2群の差の検定

比較する2グループが関連している(例えば同じ人物のビフォーアフターなど)とき、「対応のある(関連した)2群」という。

(2.1)母分散が未知で小標本の場合

比較する2グループの標本x_1と標本x_2のペアごとの差x_1-x_2d、その平均を\bar{d}と定義する。dの数(標本サイズ)をnとすると検定統計量は次式になる。

 t_{\bar{d}}=\displaystyle \frac{\bar{d}}{\hat{\sigma_{\bar{d}}}}
=\displaystyle \frac{\bar{d}}{\displaystyle \frac{\hat{\sigma}}{\sqrt{n}}}
\tag{5}

なお、 \hat{\sigma}は、個々の差d_iの不偏標準偏差であり次式の通りである。

 \hat{\sigma}=\sqrt{\displaystyle \frac{\displaystyle\sum_{i=1}^n(d_i-\bar{d})^2}{n-1}}
\tag{6}

  • t分布表を用いて検定する。
  • 自由度dfは、df=n-1)
  • 対応のない場合よりも標本サイズが小さくてすむ。
  • 同じ個体の変化をとらえることで、変化を生み出した対象を考察しやすくなる。

まとめ

良く使うのは対応のある2群の差の検定だろうか。

ここでは式だけを列挙してその理論的なことは省いたが、理論込みでちゃんと理解していないと、説得力のある説明ができない気がする。参考文献は導出過程も書かれていて理解しやすい。

参考文献