数学Ⅰ : データの分析 データの変換

はじめに

重要事項

データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の 平均値$\overline{y}=a\overline{x}+b$ 分散$s_{y}^{2}=a^{2}s_{x}^{2}$ 標準偏差$s_{y}=|a|s_{x}$ である。

このページでは、上の重要事項の説明をする。

視覚的な説明

図A
データの変換 解説図A

A君,B君,C君,D君4人の小テストの成績を棒グラフにした、図Aのようなデータを考えてみよう。
赤い点線が平均値で、緑の矢印の長さがそれぞれの偏差を表している。偏差の2乗の平均が分散で、分散の正の平方根が標準偏差だから、緑の矢印の長さで分散や標準偏差が決まる。


データに定数を加えたとき

図Aのデータのそれぞれに5点たすと、図Bのグラフになる。

図B
データの変換 解説図B

図Aと図Bを見比べると、図Bは図Aのグラフを右に$5$平行移動したものだ。

赤い線も右に$5$平行移動するので、平均値は$5$増える
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない

今度は図Aのデータのそれぞれに20点たしてみる。すると、グラフは図Cになる。

図C
データの変換 解説図C

図Aと図Cを見比べると、図Cは図Aのグラフを右に$20$平行移動したものだ。

赤い線も右に$20$平行移動するので、平均値は$20$増える
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない

このことから、もとのデータのすべてに$+b$した場合、
平均値は、もとの平均値$+b$になる。 分散,標準偏差は変わらない。 ことが分かる。


データを定数倍したとき

図Aのデータのそれぞれを$1.5$倍すると、図Dのグラフになる。上のグラフが図A、下のグラフは図Aを$1,5$倍したものだ。

図D
データの変換 解説図D

ふたつのグラフを見比べると、赤い線も$1.5$倍の位置に移動し、緑の矢印の長さも$1.5$倍になっているのに気づく。

なので、
平均値は$1.5$倍になる
分散は緑の矢印の2乗の平均だから、分散は$1.5^{2}$倍になる
標準偏差分散の正の平方根なので、$\sqrt{1.5^{2}}=1.5$より、標準偏差は$1.5$倍になる

標準偏差はデータの散らばりを表すので、散らばりが$1.5$倍になるから標準偏差も$1.5$倍、分散はその2乗なので$1.5^{2}$倍、と思ってもらってもいい。本当は分散が先に決まるので、順番が逆だけど、センター試験では問題ないです。

図Aのデータのそれぞれを$3$倍すると、図Eのグラフになる。

図E
データの変換 解説図E

ふたつのグラフを見比べると、赤い線も$3$倍の位置に移動し、緑の矢印の長さも$3$倍になっているのに気づく。

なので、
平均値は$3$倍になる
分散は$3^{2}$倍になる
標準偏差は$3$倍になる

これも、標準偏差はデータの散らばりを表すので、散らばりが$3$倍になるから標準偏差も$3$倍、分散はその2乗なので$3^{2}$倍、と思ってもらってもいいです。

このことから、もとのデータのすべてを$a$倍した場合、 平均値は、もとの平均値の$a$倍になる。 分散は、もとの分散の$a^{2}$倍になる。 標準偏差は、もとの標準偏差の$|a|$倍になる。 ことが分かる。


まとめ

以上より、最初に書いた式のとおり

重要事項

データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の 平均値$\overline{y}=a\overline{x}+b$ 分散$s_{y}^{2}=a^{2}s_{x}^{2}$ 標準偏差$s_{y}=|a|s_{x}$ である。

ことが分かる。

式による説明

データ$\{x_{1},x_{2},x_{3},\cdots,x_{n}\}$があり、
平均値を
    $\displaystyle \frac{1}{n}(x_{1}+x_{2}+x_{3}+\cdots+x_{n})=\overline{x}$式A
分散を
    $\displaystyle \frac{1}{n}\{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+(x_{3}-\overline{x})^{2}+$
            $\cdots+(x_{n}-\overline{x})^{2}\}=s_{x}^{2}$式B
標準偏差を
    $\sqrt{s_{x}^{2}}=s_{x}$式C
とする。

データ$\{y_{1},y_{2},y_{3}.\cdots,y_{n}\}$を、定数$a$,$b$を用いて
$y_{1}=ax_{1}+b$
$y_{2}=ax_{2}+b$
$y_{3}=ax_{3}+b$
$\vdots$
$y_{n}=ax_{n}+b$
と決める。式D


平均

$y$の平均$\overline{y}$は、
$\displaystyle \overline{y}=\frac{1}{n}(y_{1}+y_{2}+y_{3}+\cdots+y_{n})$
$\displaystyle \overline{y}$$\displaystyle =\frac{1}{n}\{(ax_{1}+b)+(ax_{2}+b)+(ax_{3}+b)+$
            $\cdots+(ax_{n}+b)\}$
$\displaystyle \overline{y}$$\displaystyle =\frac{1}{n}\{a(x_{1}+x_{2}+x_{3}+\cdots+x_{n})+nb\}$
$\displaystyle \overline{y}$$\displaystyle =a\cdot$$\frac{1}{n}(x_{1}+x_{2}+x_{3}+\cdots+x_{n})$$+b$

式Aより、緑の部分は$\overline{x}$なので、
$\overline{y}$$=a\overline{x}+b$式E
となる。


分散・標準偏差

$y$の分散$s_{y}^{2}$は、
$s_{y}^{2}=\displaystyle \frac{1}{n}\{(y_{1}-\overline{y})^{2}+(y_{2}-\overline{y})^{2}+(y_{3}-\overline{y})^{2}+$
            $\cdots+(y_{n}-\overline{y})^{2}\}$

これに式D,Eを代入して、
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}[\{(ax_{1}+b)-(a\overline{x}+b)\}^{2}$
          $+\{(ax_{2}+b)-(a\overline{x}+b)\}^{2}$
          $+\{(ax_{3}+b)-(a\overline{x}+b)\}^{2}$
          $+\cdots$
          $+\{(ax_{n}+b)-(a\overline{x}+b)\}^{2}]$
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}\{(ax_{1}-a\overline{x})^{2}+(ax_{2}-a\overline{x})^{2}$
          $+(ax_{3}-a\overline{x})^{2}+\cdots+(ax_{n}-a\overline{x})^{2}\}$
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}\{a^{2}(x_{1}-\overline{x})^{2}+a^{2}(x_{2}-\overline{x})^{2}$
          $+a^{2}(x_{3}-\overline{x})^{2}+\cdots+a^{2}(x_{n}-\overline{x})^{2}\}$
$s_{y}^{2}\displaystyle $$\displaystyle =a^{2}$$\frac{1}{n}\{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}$
          $+(x_{3}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}\}$

式Bより、緑の部分は$s_{x}^{2}$なので、
$s_{y}^{2}$$=a^{2}s_{x}^{2}$
となる。

$y$の標準偏差$s_{y}$は、分散の正の平方根なので、
$s_{y}=\sqrt{a^{2}s_{x}^{2}}$
$s_{x}$は$x$の標準偏差だから、$0\leqq s_{x}$なので、
$s_{y}=\sqrt{a^{2}}s_{x}$
$a \lt 0$のとき、
$s_{y}=-as_{x}$
$0\leqq a$のとき、
$s_{y}=as_{x}$

あわせて、
$s_{y}=|a|s_{x}$
である。


まとめ

以上より、最初に書いた式のとおり

重要事項

データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の 平均値$\overline{y}=a\overline{x}+b$ 分散$s_{y}^{2}=a^{2}s_{x}^{2}$ 標準偏差$s_{y}=|a|s_{x}$ である。

ことが分かる。