137

機械学習関連の技術記事を投稿します。137と言えば微細構造定数

【統計学入門(東京大学出版会)】第8章 練習問題 解答

東京大学出版会から出版されている統計学入門(基礎統計学Ⅰ)について第8章の練習問題の解答を書いていく。

本章以外の解答

本章以外の練習問題の解答は別の記事で公開している。
必要に応じて参照されたい。

8.1

母集団分布が何であれ、確率変数の和  \bar{X} = X_{1} + X_{2} + ... + X_{n}中心極限定理により正規分布  N(n \mu, n \sigma^{2}) に従う。 このため、


\begin{align}
z = \frac{\bar{X} - n \mu}{n \sigma^{2}}
\end{align}

の標準化を行えば、


\begin{align}
P(L \le X_{1} + X_{2} + ... + X_{n} \le U) &= P \left( L - n \mu \le \bar{X} - n \mu \le U - n \mu \right)  \\
&= P \left( \frac{L - n \mu}{\sqrt{n} \sigma} \le z \le \frac{U - n \mu}{\sqrt{n} \sigma} \right)
\end{align}

が得られる。  z は標準正規分布に従うから、数値表より上側確率  (1 - 0.95) / 2 = 0.025 となる値を探すと、 1.96 であることがわかる。 標準正規分布は偶関数であるから、


\displaystyle \frac{L - n \mu}{\sqrt{n} \sigma} = -1.96 \\
\displaystyle \frac{U - n \mu}{\sqrt{n} \sigma} = 1.96

を満たす  L, U を求めればよい。 ベルヌーイ分布  Bi(1, p) の期待値  E(X) = p と分散  V(X) = p(1 - p) を利用して式変形すると、


L = n \mu -1.95 \sqrt{n} \sigma = np - 1.96 \sqrt{np(1-p)} \\
U = n \mu + 1.95 \sqrt{n} \sigma = np + 1.96 \sqrt{np(1-p)}

が得られる。  n = 700, p = 0.4 を代入すると、 L = 254.596, U= 305.405 が得られる。

8.2

i)

確率分布  f(x) が、


\begin{equation}
f(x) =
  \begin{cases}
    p & (X_{i} = 1) \\
    q & (X_{i} = -1) \\
    0 & (X_{i} \neq 1, -1)
  \end{cases}
\end{equation}

であるから  p + q = 1 を利用して、期待値  E(X) は、


\begin{align}
E(X) &= \sum_{x} x f(x) \\
&= p - q = 2p - 1
\end{align}

分散  V(X) は、


\begin{align}
E(X^{2}) &= \sum_{x} x^{2} f(x) \\
&= p + q = 1
\end{align}

より、


\begin{align}
V(X) &= E(X^{2}) - E(X)^{2} \\
&= 1 - (2p - 1)^{2} \\
&= - 4p^{2} + 4p \\
&= 4p (1 - p) =4pq
\end{align}

となる。

確率変数  S_{n} は、 n が大きいとき中心極限定理により正規分布  N(n \mu, n \sigma^{2}) に従うから、近似的確率分布は  N( n (2p - 1), 4npq) に従うことがわかる。

ii)

近似的確率分布  S_{10}, S_{20} を描画するPythonプログラムを次に示す。

from math import sqrt, pi
import numpy as np
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(6, 12))
fig.patch.set_alpha(1)

def plot(idx, n):
    p = 0.4
    q = 1 - p

    mu = n * (2 * p - 1)
    sigma = sqrt(4 * n * p * q)

    x = np.arange(-20, 20, 0.1)
    y = np.exp(- (x - mu)**2 / (2 * sigma**2)) / (sqrt(2 * pi) * sigma)

    plt.subplot(2, 1, idx)
    plt.plot(x, y)
    plt.xlabel("x")
    plt.ylabel("f(x)")
    plt.title(f"3.1 ii) n={n}")
    
plot(1, 10)
plot(2, 20)

上記のプログラムを実行すると、次のグラフが描画される。

f:id:nuka137:20200915081618p:plain

8.3

450打数のときに3割のバッターになれる確率

打者がヒットを打つ確率変数を  X_{i} としその和を  S_{n} = X_{1} + X_{2} + ... + X_{n} とすると、今回の問題では  n が十分大きいことから中心極限定理を適用でき、 S_{n}正規分布  N( n \mu, n \sigma^{2}) に従う。

また今回の問題では、確率変数  X_{i} はベルヌーイ分布に従うから、今シーズンにおける打者のヒット数の期待値  E(X) と分散  V(X) は、


\begin{align}
\mu = E(X) &= np \\
&= 450 \cdot 0.28 = 126
\end{align}

\begin{align}
\sigma^{2} = V(X) &= np(1-p) \\
&= 450 \cdot 0.28 \cdot (1 - 0.28) =  90.72
\end{align}

となる。

今シーズンで打率が3割以上となる確率は、 z = \frac{S_{n} - \mu}{\sigma} による標準化により、


\begin{align}
P(S_{n} \ge 0.3 n) &= P(z \ge \frac{0.3n - \mu}{\sigma}) \\
&= P(z \ge 0.944911) \\
&= 0.17361
\end{align}

と求まる。なお、最後は付表の値を参照した。

3割のバッターになれる確率が0.2以上となる必要打数

打数を  m とすると、


\begin{align}
\mu = E(X) &= mp
\end{align}

\begin{align}
\sigma^{2} = V(X) &= mp(1-p)
\end{align}

であるから、 z = \frac{S_{n} - \mu}{\sigma} による標準化により、


\begin{align}
P(S_{n} \ge 0.3 m) &= P(z \ge \frac{0.3m - mp}{\sqrt{mp(1-p)}}) \\
&\ge 0.2
\end{align}

を満たす  m を求めればよいことになる。 付表を参照すると、


\begin{align}
\frac{0.3m - mp}{\sqrt{mp(1-p)}} \le 0.84
\end{align}

より  m \le 355.62 、すなわち355打数以下でなければならない。