数学Ⅰ : データの分析 分散と標準偏差の計算

はじめに

表A
出席番号 得点$a_{n}$
1 $a_{1}$:3点
2 $a_{2}$:5点
3 $a_{3}$:6点
4 $a_{4}$:3点
5 $a_{5}$:2点
6 $a_{6}$:7点
7 $a_{7}$:5点
8 $a_{8}$:9点
9 $a_{9}$:6点
10 $a_{10}$:4点
合計 50
平均値 $\overline{a}$:5.0点

表Aのデータを用いて、分散と標準偏差を計算してみよう。

まず、分散$s^{2}$の公式、

公式

$s^{2}=\displaystyle \frac{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}}{n}$
                         式A
$s^{2}$$=\overline{x^{2}}-(\overline{x})^{2}$式B

を思いだそう。

式Aと式B、問題によって計算が楽な方を使うのだけれど、このページでは両方の式で計算してみる。

式A:定義通り計算する

式Aのように、定義通り計算する。

アドバイス

とは言うものの、式Aの形通りに計算するのは、ミスを招きやすいのでおすすめではない。
おすすめは、問題文中の表に書き込むこと。

表Aであれば、右側に列を付けたして、表Bのようなのをつくる。

表B
出席番号 得点
$a_{n}$
偏差
$a_{n}-\overline{a}$
偏差2
$(a_{n}-\overline{a})^{2}$
1 3
2 5
3 6
4 3
5 2
6 7
7 5
8 9
9 6
10 4
合計 50
平均値 5.0

で、マスをうめてゆくわけだ。

まず、偏差の列(表Bの青いマス)を埋める。
それぞれの得点から平均値を引いたものを書き込んでゆく。

表C
出席番号 得点
$a_{n}$
偏差
$a_{n}-\overline{a}$
偏差2
$(a_{n}-\overline{a})^{2}$
1 3 -2
2 5 0
3 6 1
4 3 -2
5 2 -3
6 7 2
7 5 0
8 9 4
9 6 1
10 4 -1
合計 50 0
平均値 5.0

表Cは、偏差の計算が終わったところ。
偏差の列の合計(表Cの青いマス)が$0$にならなければ、どこかで計算を間違えている。

次に、今計算した偏差を2乗して、偏差2(表Cの緑のマス)に書き込んでゆく。

表D
出席番号 得点
$a_{n}$
偏差
$a_{n}-\overline{a}$
偏差2
$(a_{n}-\overline{a})^{2}$
1 3 -2 4
2 5 0 0
3 6 1 1
4 3 -2 4
5 2 -3 9
6 7 2 4
7 5 0 0
8 9 4 16
9 6 1 1
10 4 -1 1
合計 50 0 40
平均値 5.0 4

表Dは、偏差2の計算が終わったところ。
偏差2の列の合計が偏差の2乗和(表Dのオレンジのマス)、平均値が分散(表Dのピンクのマス)である。

式B:得点2から計算する

こちらの計算方法を使っても、やっぱり表をかくのがおすすめ。
式Aのときと同じように、表Aの右側に列を付けたして、表Eをつくる。

表E
出席番号 得点
$a_{n}$
得点2
$a_{n}^{2}$
1 3
2 5
3 6
4 3
5 2
6 7
7 5
8 9
9 6
10 4
合計 50
平均値 5.0

得点2の列(表Eの青いマス)をうめたのが、表Fである。
計算すると分かるけど、意外に計算が面倒。なので、センター試験などでもとのデータ(今回の例では得点)が分かる時には、式Aの定義通りの計算の方が楽なことが多い。

表F
出席番号 得点
$a_{n}$
得点2
$a_{n}^{2}$
1 3 9
2 5 25
3 6 36
4 3 9
5 2 4
6 7 49
7 5 25
8 9 81
9 6 36
10 4 16
合計 50 290
平均値 5.0 29

表F中、得点2の平均(表Fのピンクのマス)が、式Bの$\overline{x^{2}}$にあたる。
なので、式Bは
$s^{2}=29-5^{2}$
$s^{2}$$=4$
である。

標準偏差

標準偏差は、分散の正の平方根。

公式

$s=\sqrt{s^{2}}$

なので、
$s=\sqrt{4}$
$s$$=2$
である。