数学Ⅰ : データの分析 分散と標準偏差の原理
はじめに
まず、表Aを見てもらいたい。
出席番号 | 得点 | |
教科A $a_{n}$ |
教科B $b_{n}$ |
|
1 | $a_{1}$:6点 | $b_{1}$:8点 |
2 | $a_{2}$:5点 | $b_{2}$:4点 |
3 | $a_{3}$:4点 | $b_{3}$:5点 |
4 | $a_{4}$:4点 | $b_{4}$:3点 |
5 | $a_{5}$:5点 | $b_{5}$:7点 |
6 | $a_{6}$:6点 | $b_{6}$:6点 |
7 | $a_{7}$:5点 | $b_{7}$:2点 |
8 | $a_{8}$:5点 | $b_{8}$:5点 |
平均値 | $\overline{a}$:5.0点 | $\overline{b}$:5.0点 |
10点満点のテスト2教科の結果だけれど、両方とも平均点は5点ちょうどだった。
この結果をヒストグラムにしてみると、図Bのようになる。
教科Aは分布が平均値付近に集中しているけれど、教科Bは分布が広がっている。平均点は同じでも、例えば7点の答案の価値は、ふたつの教科で大きく違うだろう。
平均値が同じでもデータの分布には大きな差があったりする。
このことから、平均値とは別に、データがどのくらい広がっているか(散らばっているか)を表す値が必要なことが分かる。
この、データの散らばりぐあいを表す値のひとつが、分散であり、標準偏差である。
偏差
分散の説明をするためには、まず偏差について知ってもらわないといけない。
偏差とは、それぞれの値から平均値を引いたものをいう。
例えば、表Aでは、
出席番号3の教科Aの偏差は、
$a_{3}-\overline{a}=4-5=-1$
である。
値が平均値ちょうどだった場合は、偏差は0である。
平均偏差
偏差は、値が平均からどのくらい離れているかを表している。
ならば、偏差の平均をとれば、平均してどのくらい平均値から離れているかが分かりそうだけれど、当然ながら偏差の合計は必ず0である。なので、平均も必ず0になってしまう。
じゃあ、偏差は平均からの距離だと考えて、全部正の数にすれば合計が0にならないじゃんって思いつく。
つまり、表の教科Aの例だと、
$\displaystyle \frac{\left|a_{1}-\overline{a}\right|+\left|a_{2}-\overline{a}\right|+\cdots+\left|a_{8}+\overline{a}\right|}{8}$式A
という数をデータの散らばりぐあいを表す値として使おうという考え方だ。
これは平均偏差といって、とてもいいアイデアなんだけど、絶対値がついているおかげで面倒なんだ。なので、あまり使われない。
分散
じゃあ絶対値を消せばいい。
絶対値の消し方は2通りあって、
場合分けをする
2乗する
なんだけど、場合分けはこの場合もっと面倒だよね。なので、2乗してみよう。
偏差の2乗を使って式Aと同じことをすると、
$\displaystyle \frac{(a_{1}-\overline{a})^{2}+(a_{2}-\overline{a})^{2}+\cdots+(a_{8}-\overline{a})^{2}}{8}$式B
って式になる。
これが分散で、$s^{2}$と書くことが多い。ひとつの問題に複数の分散が出てくる場合、$a$のデータの分散は$s_{a}^{2}$と書き、$x$の分散は$s_{x}^{2}$と書いたりする。
式Bの分子は、偏差を2乗したものの合計なんだけど、これを「偏差の2乗和」と呼ぶ。このサイトで説明に使ったりする言葉なので、憶えておいてほしい。
この偏差の2乗和の部分をちょっと展開してみよう。
$(a_{1}-\overline{a})^{2}+(a_{2}-\overline{a})^{2}+\cdots+(a_{8}-\overline{a})^{2}$
$=a_{1}^{2}-2a_{1}\overline{a}+\overline{a}^{2}+a_{2}^{2}-2a_{2}\overline{a}+\overline{a}^{2}+$
$\cdots+a_{8}^{2}-2a_{8}\overline{a}+\overline{a}^{2}$
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
$-2a_{1}\overline{a}-2a_{2}\overline{a}-\cdots-2a_{8}\overline{a}$
$+\overline{a}^{2}+\overline{a}^{2}+\cdots+\overline{a}^{2}$
これに緑色の部分と同じものをたして引くと、
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
$-2a_{1}\overline{a}-2a_{2}\overline{a}-\cdots-2a_{8}\overline{a}$
$+2\overline{a}^{2}+2\overline{a}^{2}+\cdots+2\overline{a}^{2}$
$-\overline{a}^{2}-\overline{a}^{2}-\cdots-\overline{a}^{2}$式C
青い部分は
$-2\overline{a}\{(a_{1}-\overline{a})+(a_{2}-\overline{a})+\cdots+(a_{8}-\overline{a})\}$
と因数分解できるけど、{ }内は偏差の和なので、0。
だから、式C(つまり偏差の2乗和)は、
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}$
$-\overline{a}^{2}-\overline{a}^{2}-\cdots-\overline{a}^{2}$
$=a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}-8\cdot\overline{a}^{2}$
とかける。
これをデータの大きさで割ったものが分散$s^{2}$なので、
$s^{2}=\displaystyle \frac{a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}-8\cdot\overline{a}^{2}}{8}$
$s^{2}\displaystyle $$\displaystyle =\frac{a_{1}^{2}+a_{2}^{2}+\cdots+a_{8}^{2}}{8}-\overline{a}^{2}$
この分数部分は値の2乗($a^{2}$)の平均なので、これを$\overline{a^{2}}$とすると、
$s^{2}=\overline{a^{2}}-\overline{a}^{2}$
となる。
今回はデータの大きさが8のときの計算をした。
一般に、データの大きさが$n$個の場合、分散$s^{2}$は、
公式
$s^{2}=\displaystyle \frac{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}}{n}$
$s^{2}$$=\overline{x^{2}}-(\overline{x})^{2}$
である。
ふたつの式は両方憶えて、問題によって使いやすい方を使う。
標準偏差
ここで、分散の単位を考えてみる。
分散とは偏差の2乗の平均なので、今回の例の場合は、単位は[点2]になる。
単位が[点2]では使いにくいので、分散の正の平方根をとって、
公式
$s=\sqrt{s^{2}}$
という値をつくる。これが標準偏差で、分散よりもこっちをよく使う。