数学B : 確率分布と統計的な推測 二項分布と正規分布

例題

さいころを100回投げたとき、3の倍数の目が出る回数を$X$とする。
$40\leqq X$となる確率の近似値を求めよ。

前振り

求める確率を$P(40\leqq X)$とする。
数Ⅰの確率で考えると、これは、$X$が$n$回の確率を$P(X=n)$として、
$P(40\leqq X)=P(X=40)+P(X=41)+$
                    $\cdots+P(X=100)$
とかける。

この式の右辺をばらばらに書くと
$P(X=40)=\left(\frac{1}{3}\right)^{40}\left(1-\frac{1}{3}\right)^{60}\cdot {}_{100}\mathrm{C}_{40}$
$P(X=41)=\left(\frac{1}{3}\right)^{41}\left(1-\frac{1}{3}\right)^{59}\cdot {}_{100}\mathrm{C}_{41}$
       $\vdots$
$P(X=100)=\left(\frac{1}{3}\right)^{100}\left(1-\frac{1}{3}\right)^{0}\cdot {}_{100}\mathrm{C}_{100}$
となる。これを全部足すのだ。気が遠くなりそうな計算だ。

余事象を使うと、
$P(40\leqq X)=1-P(X \lt 40)$
$P(40\leqq X)$$=1-\{P(X=0)+P(X=1)+$
                         $\cdots+P(X=39)\}$
となる。
少し楽になったけれど、やっぱりとても面倒だ。
なので、他の方法を考えよう。


復習

確率$p$で事象$\mathrm{A}$が起こる試行を$n$回繰り返し、$\mathrm{A}$が起こった回数を$X$とすると、確率変数$X$は二項分布$B(n,p)$に従う。

例題の場合、
試行回数$n=100$
$p$は3の倍数の目が出る確率なので、$p=\displaystyle \frac{2}{6}=\frac{1}{3}$
だから、確率変数$X$は
$\displaystyle B\left(100,\ \frac{1}{3}\right)$
に従う。
これが材料になる二項分布だ。

イメージをつかむために、Aの確率分布をヒストグラムにしてみた。この図が描けるようになる必要はない。私もPCで作図した。

図A
二項分布と正規分布 解説図A

横軸は$X$で、3の倍数の目が出る回数、縦軸はその確率である。

例題で問われているのは$40\leqq X$となる確率で、図Aで言えば青い部分の和、つまり面積にあたる。
正規分布表を使って青い面積の近似値を求めるのが今回の方法である。

アドバイス

回数の多い反復試行の確率は、正規分布表を使って求める。

この方法は完全にパターン化していて、やり方さえ知っていれば機械的に計算できるので、方法を憶えておいてほしい。
以下、
1.二項分布を正規分布で近似する 2.正規分布を標準化する 3.正規分布表から確率を読み取る の3ステップで問題を解く。

1.二項分布を正規分布で近似する

復習

$n$が十分に大きい数であるとき、二項分布$B(n,p)$は、正規分布$N(np,np(1-p))$で近似できる
だった。

$100$は十分に大きい数と考えられるので、Aの二項分布は、正規分布
$N\left(100\times\frac{1}{3},100\times\frac{1}{3}\times\frac{2}{3}\right)$
$=N\left(\frac{100}{3},\frac{200}{9}\right)$
に近似する。

余談

実は、$n=100$は十分に大きい数かどうか微妙な線だ。
pが$\frac{1}{2}$に近い数だと $n$が小さくても二項分布と正規分布はよく近似するのだけど、$n$が$0$や$1$に近くなるにつれてズレが大きくなる。なので、ホントのところを言うと、$n$の大小だけで「十分大きい」かどうかは分からなかったりする。だけど、その辺の話はセンター試験や共通テストには出ないので、問題文に「十分に大きい」って書いていれば 正規分布で近似して問題ないと考えてよい。

図Aに、Bの正規分布のグラフを重ねたのが、図Bである。しつこく言うが、このグラフが描けるようになる必要はない。

図B
二項分布と正規分布 解説図B

Aの二項分布はBの正規分布で近似できるので、図中の青い面積は赤い斜線の面積とほとんど変わらない。
なので、青い面積を求める代わりに 赤い斜線部分の面積を求める。

2.正規分布を標準化する

図Bの斜線の面積を求めるために、正規分布表を使う。
教科書や参考書に載っている正規分布表を見てもらいたい。図Cのようなグラフがついていると思う。このグラフから分かるように、正規分布表は、正規分布のグラフの面積をまとめた表である。

図C
二項分布と正規分布 解説図C

全体の面積は1で、グラフは左右対称なので、$0.5$から緑の部分の面積を引けば、赤い斜線の面積が求められる。

あとは正規分布表を見るだけと言いたいところだが、ひとつ問題がある。
Bの正規分布は、$N\left(\frac{100}{3},\frac{200}{9}\right)$なので、平均値が$\displaystyle \frac{100}{3}$,標準偏差が$\sqrt{\frac{200}{9}}$。
正規分布表に載っているのは、標準正規分布で、平均値が$0$,標準偏差が$1$。
なので、どちらかを変換してもう一方にあわせてやらないといけない。普通は、標準正規分布にあわせる。


ある分布のグラフを、平均値が$0$,標準偏差が$1$になるように $z$軸方向に平行移動・拡大縮小することを、標準化という。
標準化するには、

公式

確率変数$X$の平均値を$\mu$,標準偏差を$\sigma$とする。標準化した確率変数を$Z$とすると、
$Z=\displaystyle \frac{X-\mu}{\sigma}$
である。

とすればよい。
これを使って図Bを標準化する。

横軸の$0$は、
$\displaystyle \frac{0-\frac{100}{3}}{\sqrt{\frac{200}{9}}}=-5\sqrt{2}\doteqdot-7.07$

$33$は、
$\displaystyle \frac{33-\frac{100}{3}}{\sqrt{\frac{200}{9}}}=-\frac{1}{\sqrt{200}}\doteqdot-0.07$

$40$は、
$\displaystyle \frac{40-\frac{100}{3}}{\sqrt{\frac{200}{9}}}=\sqrt{2}\doteqdot 1.41$式A

$100$は、
$\displaystyle \frac{100-\frac{100}{3}}{\sqrt{\frac{200}{9}}}=10\sqrt{2}\doteqdot 14.14$
になる。

今は例としてすべての目盛を計算したけど、問題を解くのに必要なのは式Aだけだ。
この計算結果をもとに、図Bを標準化すると図Dになる。

図D
二項分布と正規分布 解説図D

3.正規分布表から確率を読み取る

ここまでくれば勝ったも同然だ。
正規分布表で$1.41$をさがすと、図Dの緑の部分の面積は$0.4207$であることが分かる。
緑の面積と赤い斜線の面積の和は$0.5$なので、
$0.5-0.4207=0.0793$
より、求める確率の近似値は$0.0793$である。

解答$0.0793$

余談

上の解説で、あれ?$40$以上の面積を求めるの?って思った人は、以下の説明を読んでください。
疑問に思わなかった人は、読まなくていいです。てか、読まない方がいいかも知れない。


分かりやすいように、図Bを拡大して図Eにしてみた。
図中のヒストグラムが二項分布、赤い曲線が近似する正規分布のグラフである。

上の解法の流れを整理すると、
求める確率は図Eの青い部分の和、つまり面積 青い部分は、赤い斜線の面積で近似できる だから、赤い斜線の面積を求めよう というストーリーだった。

図E
二項分布と正規分布 解説図E

図Eの面積を求める部分をもっと拡大すると、図Fになる。

図F
二項分布と正規分布 解説図F

上の解説では、赤い斜線の部分の面積として、$X=40$より右の部分の面積を求めた。

でも、赤い斜線の部分は$X=39.5$より右の部分にあたる。$X=40$より右の部分だと、図Fのオレンジで囲んだ部分になってしまい、赤い斜線の面積じゃない。
なので、$39.5$を標準化して、
$\displaystyle \frac{39.5-\frac{100}{3}}{\sqrt{\frac{200}{9}}}=\frac{39.5-\frac{10}{3}\times 10}{\frac{10}{3}\sqrt{2}}$
               $=\displaystyle \frac{\frac{3}{10}\times 39.5-10}{\sqrt{2}}$
               $\doteqdot 1.31$
より、正規分布表では
$1.31$
をさがさないといけない。

上の解説よりもこちらの方がより近似した値が求められるんだけど、センター試験や共通テストでは不正解になる
つまり、センター試験や共通テスト的には、図Fのオレンジの面積が正解で、赤い斜線の面積は不正解である。
なので、センター試験や共通テストでは、疑問を持たずにオレンジの部分の面積を求めてください。