数学B : 確率分布と統計的な推測 母比率の推定

例題

ある県で無作為に回答者を選んでアンケートを行った結果、$2400$人中$960$人が「猫が好き」と答えた。
この県の全人口に占める猫好きの割合の、信頼度95%の信頼区間を求めよ。

公式から求める

公式

標本比率を$R$,標本の大きさを$n$とすると、母比率$p$の信頼区間を求める式は、
$\displaystyle R-z\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+z\sqrt{\frac{R(1-R)}{n}}$
ただし、$z$は
信頼度95%のとき、$1.96$
信頼度99%のとき、$2.58$

例題の標本の大きさは$2400$,標本比率は$\displaystyle \frac{960}{2400}=0.4$。
また、信頼度は$ 95\%$なので、母比率$p$の信頼区間は、公式より、
$0.4-1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}\leqq p\leqq 0.4+1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}$式A
となる。

これを計算して、
$0.4-1.96\sqrt{\frac{1}{100^{2}}}\leqq p\leqq 0.4+1.96\sqrt{\frac{1}{100^{2}}}$
$0.4-\displaystyle \frac{1.96}{100}\leqq p\leqq 0.4+\frac{1.96}{100}$
$0.3804\leqq p\leqq 0.4196$
となる。

解答$[0.3804,\ 0.4196]$

アドバイス

これでは原理がゼンゼン分からないので、以下に公式を使わない解法を説明した。
ただし、過程がちょっと複雑で面倒なので、センター試験本番では公式を使って解くことをおすすめする。

公式を使わない解法

前振り

分かりにくいけれど、この問題は反復試行だ。

例えば県民全体のちょうど40%が猫好きだった場合(つまり母比率が$0.4$だった場合)、
一人目の回答者が猫好きの確率は$\displaystyle \frac{4}{10}$
二人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
三人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
$\vdots$
$2400$人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
である。

これは、赤球が4個 白球が6個入っている袋の中から、球を1個取り出して、色を見て袋に戻す試行を繰り返す実験と同じ確率だ。
なので、この問題は反復試行の問題なのだ。


材料になる二項分布をつくる

表A
$X$ $P(X)$
$0$ $p^{0}(1-p)^{2400}\cdot {}_{2400}\mathrm{C}_{0}$
$1$ $p^{1}(1-p)^{2399}\cdot {}_{2400}\mathrm{C}_{1}$
$2$ $p^{2}(1-p)^{2398}\cdot {}_{2400}\mathrm{C}_{3}$
$\vdots$
$2399$ $p^{2399}(1-p)^{1}\cdot {}_{2400}\mathrm{C}_{2399}$
$2400$ $p^{2400}(1-p)^{0}\cdot {}_{2400}\mathrm{C}_{2400}$
$1$

復習

確率$p$で事象$\mathrm{A}$が起こる試行を$n$回繰り返し、$\mathrm{A}$が起こった回数を$X$とすると、$X$の確率分布は二項分布$B(n,p)$である。

先に書いたように、これは反復試行の問題だ。なので、県民全体に占める猫好きの割合(母比率)を$p$とすると、回答者に含まれる猫好きの人数$X$の確率分布は二項分布$B(2400,p)$である。
以上より、$X$の確率分布表をつくると表Aになる。


二項分布を正規分布で近似する

復習

$n$が十分に大きい数であるとき、二項分布$B(n,p)$は、正規分布$N(np,np(1-p))$(期待値(平均値)が$np$,標準偏差が$\sqrt{np(1-p)}$)で近似できる

$2400$は十分に大きい数だと考えられるので、表Aの二項分布は、正規分布
$N(2400p,2400p(1-p))$式B
で近似できる。
これをグラフにすると、図Bのようになる。

図B
母比率の推定 解説図B

図中、緑の部分が平均値を中心とした$ 95\%$の範囲である。
問題では信頼度$ 95\%$で答えよというので、回答者中の猫好きの人数である$960$が緑の部分に入るような$p$の値の範囲を求めればよい。
つまり、緑の範囲の下限を$\alpha$,上限を$\beta$とすると、
緑の部分の面積が$ 95\%$条件1 $\alpha\leqq 960\leqq\beta$条件2 が成り立つような$p$の値の範囲を求めればよい。


標準正規分布表を見る

まず条件1から解決しよう。
緑の部分の面積が$95\%=0.95$なので、そのときの緑の部分の右端の値を求める。

標準正規分布表(こちらのページ)を見るんだけど、表に載っているのはグラフの真ん中より右の面積。
正規分布のグラフは左右対称なので、図Bの緑の面積の半分の$\displaystyle \frac{0.95}{2}=0.475$を標準正規分布表で探すと、範囲の右端は
$1.96$
であることが分かる。

これをグラフに描くと、図Cができる。

図C
母比率の推定 解説図C

正規分布の標準化

だけど、
図Bのグラフは、$N(2400p,2400p(1-p))$で
平均値が$2400p$
分散が$2400p(1-p)$
図Cのグラフは
平均値が$0$
分散が$1$
なので、そのまま比較はできない。
なので、図Bのグラフの正規分布を標準化して、図Cに合わせる。

復習

正規分布の標準化
正規分布$N(m,\sigma^{2})$に従う確率変数$X$(期待値(平均値)が$m$,標準偏差が$\sigma$)を、
$Z=\displaystyle \frac{X-m}{\sigma}$式B
とすると、$Z$は標準正規分布$N(0,1)$(期待値(平均値)が$0$,標準偏差が$1$)に従う。

式Bを使って条件2の各辺を標準化する。式が長くなるので、以下、標本の大きさの$2400$を$n$とかく。
$\displaystyle \frac{\alpha-np}{\sqrt{np(1-p)}}\leqq\frac{960-np}{\sqrt{np(1-p)}}\leqq\frac{\beta-np}{\sqrt{np(1-p)}}$式C
これをグラフに描くと、図Dができる。

図D
母比率の推定 解説図D

図Cと図Dは同じ
平均値が$0$ 分散が$1$ の正規分布(これを標準正規分布という)なので、式Cは
$-1.96\displaystyle \leqq\frac{960-np}{\sqrt{np(1-p)}}\leqq 1.96$式D
と書き直せる。


あとは計算

式Dを変形して、母比率$p$を求める。
$-1.96\sqrt{np(1-p)}\leqq 960-np\leqq 1.96\sqrt{np(1-p)}$

途中式 $-960-1.96\sqrt{np(1-p)}\leqq-np\leqq-960+1.96\sqrt{np(1-p)}$
$\displaystyle \frac{-960-1.96\sqrt{np(1-p)}}{-n}\geqq p\geqq\frac{-960+1.96\sqrt{np(1-p)}}{-n}$
$\displaystyle \frac{960-1.96\sqrt{np(1-p)}}{n}\leqq p\leqq\frac{960+1.96\sqrt{np(1-p)}}{n}$
$\displaystyle \frac{960}{n}-1.96\frac{\sqrt{np(1-p)}}{n}\leqq p\leqq\frac{960}{n}+1.96\frac{\sqrt{np(1-p)}}{n}$
ここで、
$\displaystyle \frac{960}{n}=\frac{960}{2400}=0.4$ $\displaystyle \frac{\sqrt{n}}{n}=\sqrt{\frac{1}{n}}$ なので、上の式は
$0.4-1.96\sqrt{\frac{p(1-p)}{n}}\leqq p\leqq 0.4+1.96\sqrt{\frac{p(1-p)}{n}}$式E
となる。

根号の中に$p$が残ってしまった。
しかし、$p$は$0\leqq p\leqq 1$の数で、根号の中の分母の$n=2400$が大きい数だから、あまり厳密に考える必要はないだろう。
なので、根号の中の$p$を標本比率の$\displaystyle \frac{960}{2400}=0.4$で代用すると、式Eは、
$0.4-1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}\leqq p\leqq 0.4+1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}$
となる。式Aと同じになった。

あとはこれを計算して、
$0.3804\leqq p\leqq 0.4196$
となる。

解答$[0.3804,\ 0.4196]$

余談

この部分の計算は、厳密には、式Dより、
$\left|\frac{960-np}{\sqrt{np(1-p)}}\right|\leqq 1.96$
両辺を2乗して、
$\displaystyle \frac{(960-p)^{2}}{np(1-p)}\leqq 1.96^{2}$
分母を払って、
$(960-p)^{2}\leqq 1.96^{2}np(1-p)$
として、$p$についての2次不等式を解くのだが、高校数学では「あとは計算」で説明した方法で十分だ。
もっと言うと、センター試験を解くだけなら、このページ最初の「公式から求める」方法が時間がかからないのでお薦めである。