数学Ⅰ ：データの分析分散と標準偏差の原理

はじめに

まず、表Ａを見てもらいたい。

表Ａ
出席番号	得点
出席番号	教科Ａ $a_{n}$	教科Ｂ $b_{n}$
1	$a_{1}$：6点	$b_{1}$：8点
2	$a_{2}$：5点	$b_{2}$：4点
3	$a_{3}$：4点	$b_{3}$：5点
4	$a_{4}$：4点	$b_{4}$：3点
5	$a_{5}$：5点	$b_{5}$：7点
6	$a_{6}$：6点	$b_{6}$：6点
7	$a_{7}$：5点	$b_{7}$：2点
8	$a_{8}$：5点	$b_{8}$：5点
平均値	$\overline{a}$：5.0点	$\overline{b}$：5.0点

10点満点のテスト２教科の結果だけれど、両方とも平均点は５点ちょうどだった。

この結果をヒストグラムにしてみると、図Ｂのようになる。

図Ｂ

教科Ａは分布が平均値付近に集中しているけれど、教科Ｂは分布が広がっている。平均点は同じでも、例えば７点の答案の価値は、ふたつの教科で大きく違うだろう。
平均値が同じでもデータの分布には大きな差があったりする。
このことから、平均値とは別に、データがどのくらい広がっているか（散らばっているか）を表す値が必要なことが分かる。

この、データの散らばりぐあいを表す値のひとつが、分散であり、標準偏差である。

偏差

分散の説明をするためには、まず偏差について知ってもらわないといけない。
偏差とは、それぞれの値から平均値を引いたものをいう。
例えば、表Ａでは、
出席番号3の教科Ａの偏差は、
$a_{3}-\overline{a}=4-5=-1$
である。
値が平均値ちょうどだった場合は、偏差は0である。

平均偏差

偏差は、値が平均からどのくらい離れているかを表している。
ならば、偏差の平均をとれば、平均してどのくらい平均値から離れているかが分かりそうだけれど、当然ながら偏差の合計は必ず０である。なので、平均も必ず０になってしまう。

じゃあ、偏差は平均からの距離だと考えて、全部正の数にすれば合計が０にならないじゃんって思いつく。

つまり、表の教科Ａの例だと、
$\displaystyle \frac{\left|a_{1}-\overline{a}\right|+\left|a_{2}-\overline{a}\right|+\cdots+\left|a_{8}+\overline{a}\right|}{8}$式Ａ
という数をデータの散らばりぐあいを表す値として使おうという考え方だ。

これは平均偏差といって、とてもいいアイデアなんだけど、絶対値がついているおかげで面倒なんだ。なので、あまり使われない。

分散

じゃあ絶対値を消せばいい。
絶対値の消し方は２通りあって、場合分けをする２乗するなんだけど、場合分けはこの場合もっと面倒だよね。なので、２乗してみよう。
偏差の２乗を使って式Ａと同じことをすると、
$\displaystyle \frac{(a_{1}-\overline{a})^{2}+(a_{2}-\overline{a})^{2}+\cdots+(a_{8}-\overline{a})^{2}}{8}$式Ｂ
って式になる。
これが分散で、$s^{2}$と書くことが多い。ひとつの問題に複数の分散が出てくる場合、$a$のデータの分散は$s_{a}^{2}$と書き、$x$の分散は$s_{x}^{2}$と書いたりする。

式Ｂの分子は、偏差を２乗したものの合計なんだけど、これを「偏差の２乗和」と呼ぶ。このサイトで説明に使ったりする言葉なので、憶えておいてほしい。

この偏差の２乗和の部分をちょっと展開してみよう。
$(a_{1}-\overline{a})^{2}+(a_{2}-\overline{a})^{2}+\cdots+(a_{8}-\overline{a})^{2}$
$=a_{1}^{2}-2a_{1}\overline{a}+\overline{a}^{2}+a_{2}^{2}-2a_{2}\overline{a}+\overline{a}^{2}+$
       $\cdots+a_{8}^{2}-2a_{8}\overline{a}+\overline{a}^{2}$
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
       $-2a_{1}\overline{a}-2a_{2}\overline{a}-\cdots-2a_{8}\overline{a}$
          $+\overline{a}^{2}+\overline{a}^{2}+\cdots+\overline{a}^{2}$

これに緑色の部分と同じものをたして引くと、
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
       $-2a_{1}\overline{a}-2a_{2}\overline{a}-\cdots-2a_{8}\overline{a}$
       $+2\overline{a}^{2}+2\overline{a}^{2}+\cdots+2\overline{a}^{2}$
          $-\overline{a}^{2}-\overline{a}^{2}-\cdots-\overline{a}^{2}$式Ｃ

青い部分は
$-2\overline{a}\{(a_{1}-\overline{a})+(a_{2}-\overline{a})+\cdots+(a_{8}-\overline{a})\}$
と因数分解できるけど、{ }内は偏差の和なので、０。
だから、式Ｃ（つまり偏差の２乗和）は、
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
$-\overline{a}^{2}-\overline{a}^{2}-\cdots-\overline{a}^{2}$
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}-8\cdot\overline{a}^{2}$
とかける。

これをデータの大きさで割ったものが分散$s^{2}$なので、
$s^{2}=\displaystyle \frac{a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}-8\cdot\overline{a}^{2}}{8}$
$s^{2}\displaystyle $$\displaystyle =\frac{a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}}{8}-\overline{a}^{2}$
この分数部分は値の２乗($a^{2}$)の平均なので、これを$\overline{a^{2}}$とすると、
$s^{2}=\overline{a^{2}}-\overline{a}^{2}$
となる。

今回はデータの大きさが８のときの計算をした。
一般に、データの大きさが$n$個の場合、分散$s^{2}$は、

公式

$s^{2}=\displaystyle \frac{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}}{n}$
$s^{2}$$=\overline{x^{2}}-(\overline{x})^{2}$

である。
ふたつの式は両方憶えて、問題によって使いやすい方を使う。

標準偏差

ここで、分散の単位を考えてみる。
分散とは偏差の２乗の平均なので、今回の例の場合は、単位は[点²]になる。
単位が[点²]では使いにくいので、分散の正の平方根をとって、

公式

$s=\sqrt{s^{2}}$

という値をつくる。これが標準偏差で、分散よりもこっちをよく使う。