137

機械学習関連の技術記事を投稿します。137と言えば微細構造定数

【統計学入門(東京大学出版会)】第7章 練習問題 解答

東京大学出版会から出版されている統計学入門(基礎統計学Ⅰ)について第7章の練習問題の解答を書いていく。

本章以外の解答

本章以外の練習問題の解答は別の記事で公開している。
必要に応じて参照されたい。

7.1

i)

 E(X) = \mu_{X} かつ  E(Y) = \mu_{Y} とすると、共分散  {\rm Cov} (X, Y) の定義より、


\begin{align}
{\rm Cov} (X, Y) &= E( (X - \mu_{X})(Y - \mu_{Y}) ) \\
&= E(XY) - \mu_{X} E(Y) - \mu_{Y} E(X) + \mu_{X} \mu_{Y} \\
&= E(XY) - \mu_{X}\mu_{Y}
\end{align}

が得られ、


\begin{align}
V(X, Y) &= E( ( (X+Y) - (\mu_{X} + \mu_{Y}) )^{2} ) \\
&= E( (X + Y)^{2} ) - 2 ( \mu_{X} + \mu_{Y} ) E( X + Y ) + (\mu_{X} + \mu_{Y})^{2} ) \\
&= E( X^{2} + 2XY + Y^{2} ) - (\mu_{X} + \mu_{Y})^{2} \\
&= E( X^{2} ) - \mu_{X}^{2} + E( Y^{2} ) - \mu_{Y}^{2} + 2 ( E( XY ) - \mu_{X} \mu_{Y} ) \\
&= V(X) + V(Y) + 2 {\rm Cov} (X, Y)
\end{align}

が得られる。

ii)

i)と同様にして、


\begin{align}
V(X, Y) &= E( ( (aX+bY) - (a \mu_{X} + b \mu_{Y}) )^{2} ) \\
&= E( (aX + bY)^{2} ) - 2 (a \mu_{X} + b \mu_{Y} ) E( aX + bY ) + (a \mu_{X} + b \mu_{Y})^{2} ) \\
&= E( a^{2}X^{2} + 2abXY + b^{2}Y^{2} ) - (a^{2} \mu_{X}^{2} + 2ab \mu_{X} \mu_{Y} + b^{2} \mu_{Y}^{2})  \\
&= a^{2} (E(X^{2}) - \mu_{X}^{2}) + b^{2} ( E(Y^{2}) - \mu_{Y}^{2} ) + 2ab ( E(XY) - \mu_{X} \mu_{Y} ) \\
&= a^{2} V(X) + b^{2} V(Y) + 2ab {\rm Cov} (X, Y)
\end{align}

7.2

i)

期待値


\begin{align}
E(R_{p}) &= E( xR_{1} + (1 - x)R_{2} ) \\
&= xE(R_{1}) + (1 - x)E(R_{2}) \\
&= x e_{1} + (1 - x) e_{2}
\end{align}

分散


\begin{align}
V(R_{p}) &= V( xR_{1} + (1 - x)R_{2} ) \\
&= x^{2}V(R_{1}) + (1 - x)^{2}V(R_{2}) + 2 {\rm Cov} (xR_{1}, (1 - x)R_{2}) \\
&= x^{2} \sigma_{1}^{2} + (1 - x)^{2} \sigma_{2}^{2} + 2 \rho \sqrt{ x^{2} \sigma_{1}^{2}} \sqrt{(1 - x)^{2} \sigma_{2}^{2}} \\
&= (\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} ) x^{2} + 2 \sigma_{2} ( \rho \sigma_{1} - \sigma_{2} ) x + \sigma_{2}^{2}
\end{align}

ii)

i)で求めた分散  V(R_{p}) を式変形すると、


\begin{align}
V(R_{p}) &= (\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} ) x^{2} + 2 \sigma_{2} ( \rho \sigma_{1} - \sigma_{2} ) x + \sigma_{2}^{2} \\
&= (\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} ) \left( x + \frac{\sigma_{2} ( \rho \sigma_{1} - \sigma_{2} )}{(\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} )} \right)^{2} - \left(  \frac{\sigma_{2} ( \rho \sigma_{1} - \sigma_{2} )}{\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2}} \right)^{2} + \sigma_{2}^{2} \\
&\equiv \alpha ( x - \gamma )^{2} + \beta
\end{align}

が得られる。

なお、 \alpha -1 \le \rho \le 1 より、


\begin{align}
\alpha &\equiv \sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} \\
&= (\sigma_{1} - \sigma_{2})^{2} + 2\sigma_{1}\sigma_{2} (1 - \rho) \\
& \ge 0
\end{align}

となり、 V(R_{p}) は下に凸の関数であることがわかる。

ここで  0 \le x \le 1 を考慮すると、最小値をとる  x の値は  \gamma の値によって変わることに注意する。

 \gamma の値  V(R_{p}) が最小となる  x
 \gamma \le 0  x = 0
 0 \lt \gamma \lt 1  x = \gamma
 \gamma \ge 1  x = 1

 \gamma \le 0

 \gamma \le 0 、すなわち  \rho \ge \frac{\sigma_{2}}{\sigma_{1}} のとき、 x = 0 V(R_{p}) が最小値をとる。

したがって  x = 0 V(R_{p}) に代入すると、 min(V(R_{p})) = \sigma_{2}^{2} が得られる。

 0 \lt \gamma \lt 1

 0 \lt \gamma \lt 1 のときは、 x = \gamma V(R_{p}) が最小値をとる。

なお  \gamma は、


\displaystyle \gamma \equiv - \frac{\sigma_{2} ( \rho \sigma_{1} - \sigma_{2} )}{\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} }

である。

したがって  x = \gamma V(R_{p}) に代入すると、


\begin{align}
min( V(R_{p}) ) &= (\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} )\gamma^{2} + 2 \sigma_{2} ( \rho \sigma_{1} - \sigma_{2} ) \gamma + \sigma_{2}^{2} \\
&= \frac{\sigma_{1}^{2} \sigma_{2}^{2} ( 1 - \rho^{2})}{\sigma_{1}^{2} - 2 \rho \sigma_{1} \sigma_{2} + \sigma_{2}^{2} }
\end{align}

が得られる。

 \gamma \ge 1

 \gamma \ge 1 、すなわち  \rho \ge \frac{\sigma_{1}}{\sigma_{2}} のとき、 x = 1 V(R_{p}) が最小値をとる。

したがって  x = 1 V(R_{p}) に代入すると、 min(V(R_{p})) = \sigma_{1}^{2} が得られる。

iii)

 E(R_{p}) V(R_{p}) を描画するPythonプログラムを次に示す。

import numpy as np
import matplotlib.pyplot as plt


e1 = 0.198
e2 = 0.055
sigma1 = 0.357
sigma2 = 0.203
rho = 0.18

x = np.arange(0, 5, 0.01)
E = x * e1 + (1 - x) * e2
V = (sigma1**2 - 2 * rho * sigma1 * sigma2 + sigma2**2) * x**2 + 2 * sigma2 * (rho * sigma1 - sigma2) * x + sigma2**2

fig = plt.figure(figsize=(6, 12))
fig.patch.set_alpha(1)

plt.subplot(2, 1, 1)
plt.plot(x, E)
plt.xlabel("x")
plt.ylabel("E")
plt.title("7.2 iii) E")

plt.subplot(2, 1, 2)
plt.plot(x, V)
plt.xlabel("x")
plt.ylabel("V")
plt.title("7.2 iii) V")

プログラムを実行すると次のようなグラフが描画される。

f:id:nuka137:20200908085637p:plain

7.3

A, Bそれぞれのつぼにボールが入る確率を1/2とする。

 X の確率分布  g(x) を示す。

 X 確率
0  \displaystyle {}_{3}C_{0} \left( \frac{1}{2} \right)^{3} = \frac{1}{8}
1  \displaystyle {}_{3}C_{1} \left( \frac{1}{2} \right)^{2} \cdot \left( \frac{1}{2} \right) = \frac{3}{8}
2  \displaystyle {}_{3}C_{2} \left( \frac{1}{2} \right) \cdot \left( \frac{1}{2} \right)^{2} = \frac{3}{8}
3  \displaystyle {}_{3}C_{3} \left( \frac{1}{2} \right)^{3} = \frac{1}{8}

3つのボールが1つのつぼに入るのは  X = 0, X = 3 のとき、2つのつぼに入るのは  X = 1, X = 2 のときである。 このことから、 Y の確率分布  h(y) は次のように得られる。

 Y 確率
1  \displaystyle \frac{1}{8} + \frac{1}{8} = \frac{1}{4}
2  \displaystyle \frac{3}{8} + \frac{3}{8} = \frac{3}{4}

これを同時確率分布表にすると、次のようになる。

Y
X 1 2
0 1/8 0
1 0 3/8
2 0 3/8
3 1/8 0

独立の条件は、 f(x, y) = g(x) \cdot h(x) が成り立つことが条件であるが、


\begin{align}
f(x = 0, y = 1) &= \frac{1}{8} \cdot \frac{1}{4} = \frac{1}{32} \\
&\neq \frac{1}{8}
\end{align}

であるため、独立ではないと言える。

一方で無相関の条件は  {\rm Cov} (X, Y) = 0 です。


\begin{align}
E(X) &= 0 \cdot \left( \frac{1}{8} \right) + 1 \cdot \left( \frac{3}{8} \right) + 2 \cdot \left( \frac{3}{8} \right) + 3 \cdot \left( \frac{1}{8} \right) \\
&= \frac{3}{2}
\end{align}

\begin{align}
E(Y) &= 1 \cdot \left( \frac{1}{4} \right) + 2 \cdot \left( \frac{3}{4} \right) \\
&= \frac{7}{4}
\end{align}

\begin{align}
E(XY) &= 0 \cdot 1 \cdot \left( \frac{1}{8} \right) + 1 \cdot 2 \cdot \left( \frac{3}{8} \right) + 2 \cdot 2 \cdot \left( \frac{3}{8} \right) + 3 \cdot 1 \cdot \left( \frac{1}{8} \right) \\
&= \frac{21}{8}
\end{align}

より、


\begin{align}
{\rm Cov} (X, Y) &= E(XY) - E(X) \cdot E(Y) \\
&= \frac{21}{8} - \frac{3}{2} \cdot \frac{7}{4} \\
&= 0
\end{align}

となるため、無相関であると言える。

7.4

(Ⅰ)の方法で物体AとBを測定したときの分散は、それぞれ  V(m_{A}) = \sigma^{2},  V(m_{B}) = \sigma^{2} となる。

一方で(Ⅱ)の方法で測定したときは、それぞれ  V(m_{X}) = \sigma^{2},  V(m_{Y}) = \sigma^{2} となる。


\displaystyle m_{X} = m_{A} + m_{B} \\
\displaystyle m_{Y} = m_{A} - m_{B}

であるため、物体AとBがそれぞれ相関がないこと7.1 ii)の結果を利用して、


\begin{align}
V(m_{A}) &= V \left( \frac{m_{X} + m_{Y}}{2} \right) \\
&= \frac{1}{4} V(m_{X}) + \frac{1}{4} V(m_{Y})  \\
& = \frac{\sigma^{2}}{2}
\end{align}

同様にして、


\begin{align}
V(m_{B}) &= V \left( \frac{m_{X} - m_{Y}}{2} \right) \\
&= \frac{1}{4} V(m_{X}) + \frac{1}{4} V(m_{Y})  \\
& = \frac{\sigma^{2}}{2}
\end{align}

が得られる。

したがって、(Ⅰ)の方法で測定するよりも(Ⅱ)の方法で測定した方が分散が少なくなる(測定によるばらつきが小さい)ため、より優れた方法であると言える。

7.5


\begin{align}
\rho_{UV} &= \frac{{\rm Cov} (U, V)}{\sqrt{V(U)} \sqrt{V(V)}} \\
&= \frac{{\rm Cov} (aX+b, cY+d)}{\sqrt{V(aX+b)} \sqrt{V(cY+d)}}
\end{align}

ここで、


\begin{align}
{\rm Cov} (aX+b, cY+d) &= E( (aX + b) (cY + d) ) - E( aX + b ) E( cY + d ) \\
&= E( (aX + b) (cY + d) ) - (a E(X) + b) (c E(Y) + d) \\
&= E( acXY + adX + bcY + bd ) - (a E(X) + b) (c E(Y) + d) \\
&= ac( E(XY) - E(X) E(Y) )
\end{align}

V(aX+b) = a^{2} V(X) \\
V(cY+d) = c^{2} V(Y)

より、


\begin{align}
\rho_{UV} &= \frac{{\rm Cov} (aX+b, cY+d)}{\sqrt{V(aX+b)} \sqrt{V(cY+d)}} \\
&= \frac{ac( E(XY) - E(X) E(Y) )}{a \sqrt{V(X)} \cdot c \sqrt{V(Y)}} \\
&= \frac{{\rm Cov} (X, Y)}{\sqrt{V(X)} \sqrt{V(Y)}} \\
&= \rho_{XY}
\end{align}

7.6

i)

 X, Y はともに標準正規分布に従い、かつ互いに独立であるから、


E(X) = E(Y) = 0 \\
V(X) = V(Y) = 1 \\
E(X^{2}) = E(Y^{2}) = 1 \\
E(XY) = E(X)E(Y) = 0

となる。

このため、


\begin{equation}
E(cX + Y) = cE(X) + E(Y) = 0 \\
V(cX + Y) = c^{2}V(X) + V(Y) = c^{2} + 1 \\
E(X(cX+Y)) = cE(X^{2}) + E(XY) = c \\
{\rm Cov} (X, cX+Y) = E(X(cX+Y)) - E(X)E(Y) = c
\end{equation}

が得られる。

これらを用いると、相関係数  \rho は、


\begin{align}
\rho &= \frac{{\rm Cov} (X, cX+Y)}{\sqrt{V(X)} \sqrt{V(cX+Y)}} \\
&= \frac{c}{\sqrt{c^{2} + 1}} \\
&= 0.5
\end{align}

の関係式が得られるため、 c について解くと、


\displaystyle c = \frac{1}{\sqrt{3}}

が得られる。

ii)

i)より、


\displaystyle \rho = \frac{c}{ \sqrt{ c^{2} + 1 } }

であるから、 c について解くと、


\displaystyle c = \frac{\rho}{ \sqrt{ 1 - \rho^{2} } }

が得られる。

iii)


U = aX + bY \\
V = cX + dY

とすると、本書の (7.30) より、


\sigma_{1}^{2} = a^{2} + b^{2} \\
\sigma_{2}^{2} = c^{2} + d^{2} \\
\sigma_{12} = ac + bd \\
\displaystyle \rho = \frac{\sigma_{12}}{\sigma_{1} \sigma_{2}}

となる。

 U, V は2次元正規分布  {\rm N} ( (0, 0), (\sigma_{1}^{2}, \sigma_{2}^{2}, \rho ) ) に従うから、


\sigma_{12} = ac + bd = \rho \\
\sigma_{1} \sigma_{2} = 1

が得られる。

ここで  b = 0 とおくと、


\sigma_{1}^{2} = a^{2} + b^{2}

より、


a = \sigma_{1}

が得られる。

また、


\sigma_{12} = ac + bd = \rho

より、


\displaystyle c = \frac{\rho}{a} = \frac{\rho}{\sigma_{1}} = \sigma_{2} \rho

が得られる。

最後に、


\sigma_{2}^{2} = c^{2} + d^{2}

から、


d = \sigma_{2} \sqrt{1 - \rho^{2}}

が得られる。

したがって、


U = \sigma_{1} X \\
V = \sigma_{2} \rho X + \sigma_{2} \sqrt{1 - \rho^{2}} Y

と求まる。

7.7

i)

互いに独立なシステム  S_{1}, S_{2} が並列に結合されているとき、全体の寿命  Y は2つのシステムが寿命を迎えたタイミングであるから、 max( X_{1}, X_{2} ) が全体の寿命となる。

システム  S_{1}, S_{2} の寿命は指数分布、


\begin{equation}
Ex(\lambda) =
  \begin{cases}
    \displaystyle \lambda e^{- \lambda x} & (x \ge 0) \\
    0 & (x \lt 0)
  \end{cases}
\end{equation}

で与えられ、累積分布関数  F(x) は、


\begin{align}
F(x) &= \int_{-\infty}^{x} \\
&= \int_{0}^{x} \lambda e^{- \lambda x} dx \\
&= 1 - e^{- \lambda x}
\end{align}

である。

 Y の寿命を  y とすると、その累積分布関数は  S_{1}, S_{2} のどちらか一方が  y まで寿命を迎えていなければよいため、


\begin{align}
P(Y \le y) &= P(X_{1} \le y, X_{2} \le y) \\
&=  P(X_{1} \le y) P(X_{2} \le y) \\
&= (1 - e^{- \lambda y} )^{2}
\end{align}

と求まる。

したがってその確率密度関数は、


\begin{align}
\frac{d}{dy} P(Y \le y)  &= \frac{d}{dy} (1 - e^{- \lambda y} )^{2} \\
&= 2 \lambda e^{- \lambda y} (1 - e^{- \lambda y} )
\end{align}

ii)

互いに独立なシステム  S_{1}, S_{2} が直列に結合されているとき、全体の寿命  Y はどちらか一方のシステムが寿命を迎えたタイミングであるから、 min( X_{1}, X_{2} ) が全体の寿命となる。

したがって、全確率から  S_{1}, S_{2} 両方のシステムが寿命を迎えていない確率を引けばよいため、


\begin{align}
P(Y \le y) &= 1 - P(X_{1} \gt y, X_{2} \gt y) \\
&= 1 - P(X_{1} \gt y) P(X_{2} \gt y) \\
&= 1 - (1  - (1 - e^{- \lambda y} ) )^{2} \\
&= 1 - e^{- 2 \lambda y}
\end{align}

と求まる。

確率密度関数は、


\begin{align}
\frac{d}{dy} P(Y \le y)  &= \frac{d}{dy} (1 - e^{- 2 \lambda y}) \\
&= 2 \lambda e^{-2 \lambda y}
\end{align}

7.8

i)

確率密度関数が、


\begin{equation}
f(x) =
  \begin{cases}
    \displaystyle 1 & ( 0 \le x \le 1) \\
    0 & (x \lt 0, 1 \lt x)
  \end{cases}
\end{equation}

で与えられるから、累積分布関数  F(x) は、


\begin{equation}
F(x) =
  \begin{cases}
    \displaystyle x & ( 0 \le x \le 1 ) \\
    0 & (x \lt 0, 1 \lt x)
  \end{cases}
\end{equation}

となる。

したがって、UとVの累積分布関数  U(u), V(v) はそれぞれ、


\begin{align}
U(u) &= P(max (X_{1}, X_{2}, ..., X_{n}) \le u) \\
&= P(X_{1} \le u) P(X_{2} \le u) ... P(X_{n} \le u) \\
&= (F(u))^{n} \\
&= u^{n}  \quad ( 0 \le u \le 1 )  
\end{align}

\begin{align}
V(v) &= P(min (X_{1}, X_{2}, ..., X_{n}) \le v) \\
&= 1 - P(X_{1} \gt v) P(X_{2} \gt v) ... P(X_{n} \gt v) \\
&= 1 - ( 1 - v )^{n} \quad ( 0 \le v \le 1 )  
\end{align}

となる。このため、UとVの確率密度関数  g(u), h(v) はそれぞれ、


\begin{align}
g(u) &= \frac{dU}{du} \\
&= nu^{n-1}  \quad ( 0 \le u \le 1 )
\end{align}

\begin{align}
h(v) &= \frac{dV}{dv} \\
&= n(1-v)^{n-1}  \quad ( 0 \le v \le 1 )
\end{align}

となる。

ii)

確率密度関数が、


\begin{equation}
f(x) =
  \begin{cases}
    \displaystyle \lambda e^{- \lambda x} & ( x \ge 0) \\
    0 & (x \lt 0)
  \end{cases}
\end{equation}

で与えられるから、累積分布関数  F(x) は、


\begin{equation}
F(x) =
  \begin{cases}
    \displaystyle 1 - e^{- \lambda x} & ( x \ge 0 ) \\
    0 & (x \lt 0)
  \end{cases}
\end{equation}

となる。

したがって、UとVの累積分布関数  U(u), V(v) はそれぞれ、


\begin{align}
U(u) &= P(max (X_{1}, X_{2}, ..., X_{n}) \le u) \\
&= P(X_{1} \le u) P(X_{2} \le u) ... P(X_{n} \le u) \\
&= (1 - e^{- \lambda u})^{n} \quad ( u \ge 0 )
\end{align}

\begin{align}
V(v) &= P(min (X_{1}, X_{2}, ..., X_{n}) \le v) \\
&= 1 - P(X_{1} \gt v) P(X_{2} \gt v) ... P(X_{n} \gt v) \\
&= 1 -  e^{- \lambda nv} \quad ( v \ge 0 )
\end{align}

となる。このため、UとVの確率密度関数  g(u), h(v) はそれぞれ、


\begin{align}
g(u) &= \frac{dU}{du} \\
&= n \lambda e^{- \lambda u} ( 1 - e^{- \lambda u } )^{n-1}  \quad ( u \ge 0 )
\end{align}

\begin{align}
h(v) &= \frac{dV}{dv} \\
&= \lambda n e^{- \lambda n v} \quad ( v \ge 0 )
\end{align}

となる。

iii)

 X_{i}確率密度関数 f(x)、累積分布関数が  F(x) で与えられるから、UとVの累積分布関数  U(u), V(v) はそれぞれ、


\begin{align}
U(u) &= P(max (X_{1}, X_{2}, ..., X_{n}) \le u) \\
&= P(X_{1} \le u) P(X_{2} \le u) ... P(X_{n} \le u) \\
&= F(u)^{n}
\end{align}

\begin{align}
V(v) &= P(min (X_{1}, X_{2}, ..., X_{n}) \le v) \\
&= 1 - P(X_{1} \gt v) P(X_{2} \gt v) ... P(X_{n} \gt v) \\
&= 1 - (1 -  F(v))^{n}
\end{align}

で与えられる。

このため、UとVの確率密度関数  g(u), h(v) はそれぞれ、


\begin{align}
g(u) &= \frac{dU}{du} \\
&= n \cdot \frac{dF}{du} \cdot F(u)^{n-1} \\
&= n \cdot f(u) \cdot F(u)^{n-1}
\end{align}

\begin{align}
h(v) &= \frac{dV}{dv} \\
&= n \cdot \frac{dF}{dv} \cdot (1 - F(v))^{n-1} \\
&= n \cdot f(v) \cdot (1 - F(v))^{n-1}
\end{align}

となる。

7.9

たたみこみの結果元と同じ確率分布となる場合、その確率分布は再生性も持つと言える。

i)

二項分布の確率分布は、


f(x) = Bi(n, p) = {}_{n} C_{x} p^{x} (1 - p)^{n-x}

であるから、再生性が持つことを証明するためには、


Bi(n, p) * Bi(m, p) = Bi(n + m, p)

が成り立つことを確認すればよい。


\sum_{x=0}^{z} {}_{n} C_{x} \cdot {}_{m} C_{z-x} = {}_{n+m} C_{z}

に注意すると、


\begin{align}
Bi(n, p) * Bi(m, p) &= \sum_{x=0}^{z} {}_{n} C_{x} p^{x} (1 - p)^{n -x} \dot {}_{m} C_{z-x} p^{z - x} (1 - p)^{m - (z - x)} \\
&= p^{z} (1-p)^{n+m-z} \cdot \sum_{x=0}^{z} {}_{n} C_{x} \cdot {}_{m} C_{z-x} \\
&= {}_{n+m} C_{z} \cdot p^{z} (1-p)^{n+m-z} \\
&= Bi(n+m, p)
\end{align}

となり、再生性を持つことが証明された。

ii)

二項分布の確率分布は、


\begin{align}
f(x) = P_{o}(\lambda) = \sum_{x} e^{-\lambda} \frac{\lambda^{x}}{x!}
\end{align}

であるから、再生性が持つことを証明するためには、


\begin{align}
P_{o}(\lambda) * P_{o}(\mu) = P_{o}(\lambda + \mu)
\end{align}

が成り立つことを確認すればよい。

二項定理


\begin{align}
(a + b)^{n} &= \sum_{x=0}^{n} {}_{n} C_{x} a^{x} b^{n-x} \\
&= \sum_{x=0}^{n} \frac{n!}{x! (n-x)!} a^{x} b^{n-x}
\end{align}

を利用すると、


\begin{align}
P_{o}(\lambda) * P_{o}(\mu) &= \sum_{x} e^{-\lambda} \frac{\lambda^{x}}{x!} \cdot e^{-\mu} \frac{\mu^{z-x}}{(z-x)!} \\
&= \frac{e^{-(\lambda + \mu)}}{z!} \sum_{x=0}^{z} \frac{z!}{x! (z-x)!} \lambda^{x} \mu^{z-x} \\
&= \frac{e^{-(\lambda + \mu)}}{z!} (\lambda + \mu)^{z} \\
&= P_{o}(\lambda + \mu)
\end{align}

となり、再生性を持つことが証明された。

iii)

二項分布の確率分布は、


\begin{align}
f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \left( - \frac{(x-\mu)^{2}}{2 \sigma^{2}} \right)
\end{align}

であるから、再生性が持つことを証明するためには、


\begin{align}
f_{\mu_{1}, \sigma_{1}^{2}}(x) * f_{\mu_{2}, \sigma_{2}^{2}}(x) = f_{\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2}} (x)
\end{align}

が成り立つことを確認すればよい。

ガウス積分の公式を利用すると、


\begin{align}
f_{\mu_{1}, \sigma_{1}^{2}}(x) * f_{\mu_{2}, \sigma_{2}^{2}}(x) &= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma_{1}} \exp \left( - \frac{(x - \mu_{1})^{2}}{2 \sigma_{1}^{2}} \right) \cdot  \frac{1}{\sqrt{2 \pi} \sigma_{2}} \exp \left( - \frac{( (z - x) - \mu_{2})^{2}}{2 \sigma_{2}^{2}} \right) dx \\
&= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left( - \frac{(x - \mu_{1})^{2}}{2 \sigma_{1}^{2}} - \frac{( (z - x) - \mu_{2})^{2}}{2 \sigma_{2}^{2}} \right) dx \\
&= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left( - \frac{1}{2} \cdot \frac{ \sigma_{1}^{2} + \sigma_{2}^{2} }{ \sigma_{1}^{2} \sigma_{2}^{2} } \left( x - \frac{1}{\sigma_{1}^{2} + \sigma_{2}^{2}} (\mu_{1} \sigma_{2}^{2} + (z - \mu_{2}) \sigma_{1}^{2} ) \right)^{2}  \right) dx - \frac{1}{2 (\sigma_{1}^{2} + \sigma_{2}^{2})} (z - \mu_{1} - \mu_{2})^{2} \\
&\equiv \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left( - \frac{1}{2} B ( x - A )^{2} + C \right) dx \\
&= \frac{e^{C}}{2 \pi \sigma_{1} \sigma_{2}}  \int_{-\infty}^{\infty} \exp \left( - \frac{1}{2} B X^{2} \right) dX \\
&= \frac{e^{C}}{2 \pi \sigma_{1} \sigma_{2}} \sqrt{\frac{2 \pi}{B}} \\
&= \frac{1}{\sqrt{2 \pi}} \frac{1}{ \sqrt{ \sigma_{1}^{2} + \sigma_{2}^{2} } } \exp \left( - \frac{(z - \mu_{1} - \mu_{2})^{2}}{2 (\sigma_{1}^{2} + \sigma_{2}^{2})}  \right) \\
&= f_{\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2}} (x)
\end{align}

となり、再生性を持つことが証明された。

なお途中の式変形で、


\begin{align}
A = \frac{-\sigma_{1}^{2} z - \sigma_{2}^{2} \mu_{1} + \sigma_{1}^{2} \mu_{2} }{ \sigma_{1}^{2} + \sigma_{2}^{2} }
\end{align}

\begin{align}
B = \frac{\sigma_{1}^{2} + \sigma_{2}^{2} }{ \sigma_{1}^{2} \sigma_{2}^{2}}
\end{align}

\begin{align}
C = - \frac{1}{2(\sigma_{1}^{2} + \sigma_{2}^{2})} (z - \mu_{1} - \mu_{2})^{2}
\end{align}

\begin{align}
X = x - A
\end{align}

とおいた。