正規分布を使った推定と検定

Keywords

  • 統計学

Contents

  • 1. 概要
  • 2. 確率分布とは
  • 3. 確率分布の種類
  • 4. 正規分布とは
  • 4-1. 正規分布の具体例と確率
  • 4-2. 標準化
  • 4-3. 中心極限定理
  • 5. 母集団の平均の推定(区間推定)
  • 6. 仮説検定
  • 7. 今後
  • 8. 参考文献

概要

本稿では、正規分布を使った推定と検定についての大枠を説明します。 推定と検定の大まかな流れを理解することを目的としています。

確率分布とは

確率分布とは、複数の現象が発生する確率の分布のことです。ある現象が発生する確率は0から1の間の値をとり、すべての現象が発生する確率の総和は1となります。

確率分布の種類

確率分布には、正規分布やt分布やカイ二乗分布やベルヌーイ分布などたくさんあります。なお、本稿で正規分布のみを対象にして説明します。

正規分布とは

正規分布とは、図のように左右対称で平均μは中央にあります。 平均が大きければ右へ、小さければ左に動き、標準偏差σが大きければ平たく広くなり、小さければ高く狭くなります。

正規分布の形は、平均μと標準偏差σの2つによって決定します。この2つを正規分布の母数と呼びます。

正規分布

平均が異なる正規分布

標準偏差が異なる正規分布

正規分布の具体例と確率

正規分布の具体例と共に、確率との関係を見ていきます。

試しに平均160cm、標準偏差10cmの正規分布から下記の確率を図でイメージしてみます。

また、先程の説明にあったように、分布の面積は確率を表しています。

  • 180cm以下の人が抽出される確率: 0.9772

  • 160cmから170cmが抽出される確率: 0.3413

なお、-∞ <= 身長 <= ∞が抽出される確率は1となります。

標準化

正規分布に従うある現象xに対して、正規分布の平均をマイナスし、その結果を正規分布の標準偏差で割ることを標準化と呼びます。その標準化した値の取る確率は標準正規分布表というもので簡単に算出できます。

上記の2つの確率もそれを使って求めました。

180cm以下の人が抽出される確率

  1. P(x<=180)を標準化するとP(z<=(180-160)/10)→P(z<=2)
  2. 標準正規分布表からP(z<=2)は0.9772

160cmから170cmが抽出される確率

  1. P(160 <= x && x <= 170)を標準化するとP(0 <= z && z <= 1)
  2. P(0 <= z && z <= 1) = 1 - P(z < 0) - P( 1 < z )
  3. P(z < 0) = 0.5
  4. P( 1 < z ) = 0.1587
  5. 1 - 0.5 - 0.1587 = 0.3413

標準正規分布表

この方法によって、ある現象がよくあることなのか、めったに起きないことなのかがわかります。

中心極限定理

中心極限定理とは、母集団の分布がどのようなものであれ、その母集団から取得した標本平均の分布は、標本サイズnが大きくなるにつれて、平均μ, 標準偏差σ/√nの正規分布に近づく、というものです。

正規分布に近づくということは、サンプリングした結果の標本平均が、よく発生する結果なのか、滅多に発生しない結果なのかの確率がわかるようになるということです。

また、平均μ, 標準偏差σ/√nの正規分布に近づくということは、標本(標本平均とn)と母集団(μとσ)の関係を現せるということです。

標本と母集団の関係を現せるということは、標本をとれば、母集団のことがわかり、一方で母集団のことがわかれば、標本のこともわかるということです(実際は、母集団のことわからないので、母集団がこういう特徴のものであると仮定した場合、標本はこうなるはず、というようなことなります。)。

前者は推定で、後者は仮説検定の考え方です。

また、標本平均を標準化することで、標本平均を標準化したzは、標本サイズnが大きくなるにつれて、平均0, 標準偏差1の正規分布に近く、とも表現できます。

標準化によって、標準正規分布表を使った容易な確率の算出が可能になります。

標準化のための関係式は、z = (標本平均 - μ) / (σ / √n)です。

母集団の平均の推定(区間推定)

先ほどの関係式を使うと、母集団の平均の推定が可能になります。(統計学の目的の1つとして、母集団の母数(正規分布であれば、平均と標準偏差)を推定したいというものがあることを思い出してください。)

標本抽出(標本サイズは10)を1回行い、標本平均が160cmであることがわかったとします。また、なんらかの方法で、母集団の標準偏差が10cmということもわかっているものとします。以上を前提とし、母集団の平均を推定するとします。(なお、信頼係数95%とします)

標準正規分布表より、P(-1.96 <= z <= 1.96) = 0.95と表現ができます。

また、z = (標本平均 - μ) / (σ / √n)によって、

P(-1.62 <= z <= 1.62) = 0.95は下記のように変形できます。

P(154.89 <= μ <= 165.11) = 0.95

つまり、95%の確率で母平均は154.89から165.11の値をとると推定ができました。

これは、標本から母集団の平均を推定できたと言えます。(母集団の標準偏差も未知な状況での推定も可能ですが、本稿の域をでてしまいまうので、これまでとします。)

仮説検定

採用したい仮説を対立仮説として、採用したくない仮説を帰無仮説と言います。

仮説検定では、帰無仮説が起こりうることは滅多にないので、帰無仮説を棄却し、代りに対立仮説を採用するという手順を踏みます。

例えば、現状の母集団の平均身長は160cm、標準偏差が10cmということがわかっているとします。今回牛乳を沢山飲ませて育てた人の層の中の100人に対して、サンプリングを行ったところ、平均身長が170cmだということがわかりました。

以上の前提を元に、牛乳を沢山飲むと平均身長が高いことを検定したいと思います。

帰無仮説を「牛乳を飲んで育った人の平均身長は160cmである」とします。(有意水準を5%とします。)

標準化された正規分布での棄却域は、標準正規分布表より、P(1.645 < z) = 0.05となります。これは標準化された正規分布では、1.645より高い値をとる確率は5%であり、めったに起きないということです。

z = (標本平均 - μ) / (σ / √n)より、式変形をして、標本平均についての棄却域を出します。

P(1.645 < z) = 0.05
P(1.645 < 標本平均 - 160) = 0.05
P(161.645 < 標本平均) = 0.05

これは標本平均が161.645より大きい確率は5%となり、滅多に発生しないというものです。

つまり、母集団の平均160cm、標準偏差10cm、標本サイズ100を前提にした場合、標本平均170cmをとることはめったに起きないものであるため、そのため、帰無仮説(平均身長160cmであること)を棄却し、対立仮説を採用します。

今後

標準偏差を未知として、母集団の平均を推定する方法としてのt分布を使った推定・仮説検定や期待度数を使ったカイ二乗検定等、本稿以外にも多くの推定・検定がありますが、本稿で説明した流れは共通しています。

本稿をマスターして、応用範囲を広げていってください。

参考文献