数学Ⅰ : データの分析 分散と標準偏差の計算
はじめに
| 出席番号 | 得点$a_{n}$ |
| 1 | $a_{1}$:3点 |
| 2 | $a_{2}$:5点 |
| 3 | $a_{3}$:6点 |
| 4 | $a_{4}$:3点 |
| 5 | $a_{5}$:2点 |
| 6 | $a_{6}$:7点 |
| 7 | $a_{7}$:5点 |
| 8 | $a_{8}$:9点 |
| 9 | $a_{9}$:6点 |
| 10 | $a_{10}$:4点 |
| 合計 | 50 |
| 平均値 | $\overline{a}$:5.0点 |
表Aのデータを用いて、分散と標準偏差を計算してみよう。
まず、分散$s^{2}$の公式、
公式
$$ \begin{align} s^{2}&=\frac{1}{n}\left\{\begin{aligned}(x_{1}-&\overline{x})^{2}+(x_{2}-\overline{x})^{2}+\\&\cdots+(x_{n}-\overline{x})^{2}\end{aligned}\right\}\class{tex_formula}{式A}\\ &=\overline{x^{2}}-(\overline{x})^{2}\class{tex_formula}{式B} \end{align} $$
を思いだそう。
式Aと式B、問題によって計算が楽な方を使うのだけれど、このページでは両方の式で計算してみる。
式A:定義通り計算する
式Aのように、定義通り計算する。
アドバイス
とは言うものの、式Aの形通りに計算するのは、ミスを招きやすいのでおすすめではない。
おすすめは、問題文中の表に書き込むこと。
表Aであれば、右側に列を付けたして、表Bのようなのをつくる。
| 出席番号 | 得点 $a_{n}$ |
偏差 $a_{n}-\overline{a}$ |
偏差2 $(a_{n}-\overline{a})^{2}$ |
| 1 | 3 | ||
| 2 | 5 | ||
| 3 | 6 | ||
| 4 | 3 | ||
| 5 | 2 | ||
| 6 | 7 | ||
| 7 | 5 | ||
| 8 | 9 | ||
| 9 | 6 | ||
| 10 | 4 | ||
| 合計 | 50 | ||
| 平均値 | 5.0 |
で、マスをうめてゆくわけだ。
まず、偏差の列(表Bの青いマス)を埋める。
それぞれの得点から平均値を引いたものを書き込んでゆく。
| 出席番号 | 得点 $a_{n}$ |
偏差 $a_{n}-\overline{a}$ |
偏差2 $(a_{n}-\overline{a})^{2}$ |
| 1 | 3 | -2 | |
| 2 | 5 | 0 | |
| 3 | 6 | 1 | |
| 4 | 3 | -2 | |
| 5 | 2 | -3 | |
| 6 | 7 | 2 | |
| 7 | 5 | 0 | |
| 8 | 9 | 4 | |
| 9 | 6 | 1 | |
| 10 | 4 | -1 | |
| 合計 | 50 | 0 | |
| 平均値 | 5.0 |
表Cは、偏差の計算が終わったところ。
偏差の列の合計(表Cの青いマス)が$0$にならなければ、どこかで計算を間違えている。
次に、今計算した偏差を2乗して、偏差2(表Cの緑のマス)に書き込んでゆく。
| 出席番号 | 得点 $a_{n}$ |
偏差 $a_{n}-\overline{a}$ |
偏差2 $(a_{n}-\overline{a})^{2}$ |
| 1 | 3 | -2 | 4 |
| 2 | 5 | 0 | 0 |
| 3 | 6 | 1 | 1 |
| 4 | 3 | -2 | 4 |
| 5 | 2 | -3 | 9 |
| 6 | 7 | 2 | 4 |
| 7 | 5 | 0 | 0 |
| 8 | 9 | 4 | 16 |
| 9 | 6 | 1 | 1 |
| 10 | 4 | -1 | 1 |
| 合計 | 50 | 0 | 40 |
| 平均値 | 5.0 | 4 |
表Dは、偏差2の計算が終わったところ。
偏差2の列の合計が偏差の2乗和(表Dのオレンジのマス)、平均値が分散(表Dのピンクのマス)である。
式B:得点2から計算する
こちらの計算方法を使っても、やっぱり表をかくのがおすすめ。
式Aのときと同じように、表Aの右側に列を付けたして、表Eをつくる。
| 出席番号 | 得点 $a_{n}$ |
得点2 $a_{n}^{2}$ |
| 1 | 3 | |
| 2 | 5 | |
| 3 | 6 | |
| 4 | 3 | |
| 5 | 2 | |
| 6 | 7 | |
| 7 | 5 | |
| 8 | 9 | |
| 9 | 6 | |
| 10 | 4 | |
| 合計 | 50 | |
| 平均値 | 5.0 |
得点2の列(表Eの青いマス)をうめたのが、表Fである。
計算すると分かるけど、意外に計算が面倒。なので、センター試験などでもとのデータ(今回の例では得点)が分かる時には、式Aの定義通りの計算の方が楽なことが多い。
| 出席番号 | 得点 $a_{n}$ |
得点2 $a_{n}^{2}$ |
| 1 | 3 | 9 |
| 2 | 5 | 25 |
| 3 | 6 | 36 |
| 4 | 3 | 9 |
| 5 | 2 | 4 |
| 6 | 7 | 49 |
| 7 | 5 | 25 |
| 8 | 9 | 81 |
| 9 | 6 | 36 |
| 10 | 4 | 16 |
| 合計 | 50 | 290 |
| 平均値 | 5.0 | 29 |
表F中、得点2の平均(表Fのピンクのマス)が、式Bの$\overline{x^{2}}$にあたる。
なので、式Bは
$$
\begin{align}
s^{2}&=29-5^{2}\\
&=4
\end{align}
$$
である。
標準偏差
標準偏差は、分散の正の平方根。
公式
$s=\sqrt{s^{2}}$
なので、
$$
\begin{align}
s&=\sqrt{4}\\
&=2
\end{align}
$$
である。