標本とは?
標本抽出(Sampling)とは、母集団と標本のあいだにある関係を説明するためのものです。 例えばアメリカ国民全体を対象に、何か調査をするのは難しいですが、その中から、1000人だけを選んでアンケートを実施することは可能です。これが、母集団と標本の関係です。
標本抽出については、いろいろと興味深いことが沢山あります。たとえば、2つの標本の平均が違うとき、それが偶然なのか、統計的に有意な差なのか、こういった疑問に統計学は一定の答えを与えてくれますが、それはまた、別のレクチャーに回すとしましょう。
標本は、母集団の性質を引き継いでいる必要があります。これを実現する最も基本的な方法に、無作為抽出(random sampling)という方法があります。これは、母集団から等確率にサンプルを抽出する方法です。箱に入ったいくつかのボールなど、実体があれば良いですが、コンピュータを使って仮想的に行う場合は、乱数が必要になります。 コンピュータは、本当にランダムな数字を生成することは出来ませんので、ランダムに見える数字を作る必要があります。これは疑似乱数と呼ばれ、様々な方法論がありますが、Pythonをはじめ多くの現代的なライブラリでは、メルセンヌ・ツイスタ法(Mersenne Twister)が使われています。
非復元抽出(sampling without replacement)は、抽出したらそれを母集団にもどしません。これはつまり、有限な標本を意味します。一方、復元抽出(sampling with replacement)は、抽出したものを母集団に戻すイメージなので、無限です。たとえば、コイントスを考えます。裏か表がでますが、やり続ける限り、それに応じて大きな標本を得ることができます。
Np個の母集団から、N個のサンプルを抽出したとします。ここで、Np>N です。このとき、N個の値の平均値という新しい確率変数xを考えます。このxの平均と、標準偏差は、母集団の平均と標準偏差を使って、次のように書くことができます。
平均: $$\mu_x=\mu$$
標準偏差: $$\sigma_x= \frac{\sigma}{\sqrt{N}}$$
これは、標本の統計量から、母集団の統計量を推し量ることができることを意味します。Nを大きくすればするほど、xの分散は小さくなるので、正確な平均値を知ることが出来るわけです。
成功確率p(失敗はq=1-p)で表現される母集団からの標本を考えます。確率pで1が、確率qで0が返ってくると考えると分かり易いかも知れません。N個のサンプルの平均という新しい確率変数を考えると、この平均と標準偏差は、次のように書くことができます。
平均: $$\mu_p=p$$
標準偏差: $$\sigma_p=\sqrt{\frac{pq}{N}}=\sqrt{\frac{p(1-p)}{N}}$$
正規分布に従う2つの母集団 N1とN2があるとします。これらの母集団からの標本について、その差と和を考えて見ます。 S1をN1の統計量、S2をN2の統計量とすると、次の関係が成り立ちます。
差の統計量については、
平均: $$\mu_{S1-S2}=\mu_{S1}-\mu_{S2}$$
標準偏差: $$ \sigma_{S1-S2}=\sqrt{{\sigma^2}_{S1}+{\sigma^2}_{S2}}$$
和の統計量については、
平均: $$\mu_{S1+S2}=\mu_{S1}+\mu_{S2}$$
標準偏差: $$ \sigma_{S1+S2}=\sqrt{{\sigma^2}_{S1}+{\sigma^2}_{S2}}$$
平均は分かり易いですが、標準偏差はどちらもおなじく、増大していることに注意してください。