edX

文系による文系のための分散はなぜn-1で割るのか?

こんにちは、統計学を勉強しているナスビーニョです。

最近は高校でもデータの取り扱いについて学ぶらしいですね。その時に平均はnで割り、分散もnで割って求めると習いますよね(かつての僕もそう習いました)。

でも、大学になると分散はn-1で割って求めるように言われます。統計学の用語ではnで割ったものを標本分散、n-1で割ったものを不偏分散といいます。

標本分散\(s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2\)

不遍分散\(\hat{\sigma}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2\)

この違いは何でしょうか?今回は統計学初心者であれば、必ず一度疑問に思うであろうこの問題について書いていきます。

この記事を書くにあたり、下記のwebsiteを参考にしています。

edX-Probability – The Science of Uncertainty and Data

またedXについて知りたい人は以下の記事を読んでみてください。

あわせて読みたい
お金がなければ、MOOCを使って勉強しよう(一流大学の授業を無料で受ける)こんにちは、ナスビーニョです。今回はMOOC(ムーク)について紹介します。 MOOCとは MOOC(ムーク)とは、Massive O...

母集団と標本

母集団と標本の違いをしっかりと抑えておきましょう。

高校生の時は母集団全てのデータを手に入れるたという設定が多いです。ただ大学生になると、母集団のデータが分からない場合を扱うことが圧倒的になります。

この際に標本といって、母集団からランダムで抽出したものからデータの性質を推定することになります。

例えば、全国のちびっこ達の学力がどのような分布をしているのかを確かめたいとします。その時の母集団は全国のちびっこ全員になります。

少子化が叫ばれているとはいえ約642万人です。到底全員の学力を調べることは、費用面から考えても難しいですよね。。。(実際には全国学力調査と言って、小学6年生と中学3年生を対象にほぼ全ての学校が参加するテストは存在しますが)

その時に役立つのが統計学です。標本データを使うことによって母集団のデータの分布の特徴を掴むことが出来ます。今回の場合であると、約1,000人の生徒をランダムに選び、生徒の成績の分布を見ることで母集団のデータの性質を知ることが出来ます。

ただ、標本調査の仕方として1,000人の生徒をランダムに選ぶのは、あまり現実的ではないので実際には学校をランダムに選ぶ、または地区をランダムに選ぶなどして対処しているようです。

次は推定量という、母集団の性質を知る上で大事な単語について解説します。

推定量とは?

統計学における推定量(すいていりょう)とは、現実に測定された標本データをもとに、確率分布の母数(パラメータ、現実には測定できない)として推定した数量

-wikipedia-

wikipediaには上記のように書いてあります。パラメータとは平均値、分散などのことです。もう少し簡単に書くと、「推定量とは母集団のデータを推し量るための、標本データから分かるもの(平均・分散など)」と言えます。また、具体的な推定量の値のことを推定値といいます。

ここでは、標本には標本の平均値(標本平均)、標本の分散(標本分散)が存在していて、母集団の平均や分散を必ずしも表しているわけではないことを理解しておけば大丈夫です。

例えば、先ほどの例のちびっこのテストで考えます。

1,000人のちびっこのテストの結果、標本平均(1,000人の結果の平均)が60点だとします。この時、標本平均のことを推定量、60点のことを推定値と呼びます。

問題はここからです。この標本平均60点は全国のちびっこの平均(母平均)に当てはまるでしょうか。

「そんなの分かりっこねえよ」というのが皆さんの答えですよね。もしかしたらランダムに選ばれたちびっこが全員アホだったという場合には全国のちびっこの平均点は70点くらいあるかもしれません。

逆も然りです。ランダムに選ばれた1,000人が賢ければ全国のちびっこの平均点は50点くらいになるかもしれません。

つまり言いたいのは標本から得られた推定値は必ずしも、母集団の特徴を表していないということです。

しかし、毎回そのようなことを考えているとキリがありません。そこで、推定量自体をなるべく母集団の性質に合うようなものを使えばいいという風に考えます。

上記の考えを使って、推定量として最低限満たしてほしい大事な性質がいくつかあります。

その中でも代表的な2つを取り上げます。

  • 一致性
  • 不偏性

一致性

一致性とは、サンプル数が多くなれば推定量が真のパラメータ(母平均・母分散など)に近づくという性質です。

これを証明するには、かなり大変なので興味ある人は以下を参考をにすると面白いかもしれません。

また、視覚的な理解としてこのサイトが特にオススメです。

不偏性

不偏性とは推定量の期待値が母集団のパラメータと等しくなるということです。

もう一度ちびっこのテストを使って考えます。全国のちびっこの平均点が60点だとします(母平均が60点)。

しかし、1,000人のデータを使って得られた標本平均は60点になるとは限りません。ある時は50点、またある時は60点、そしてまたある時は70点などとある程度サンプルによってばらつきます。

この時の標本平均の期待値(平均)が母平均と一致していれば、標本平均という推定量は不偏性を満たしていることが実証出来ます。

実はデータから実証しなくても、数学的に標本平均は不偏性を満たすことが分かっています。証明については、下の不偏分散が不偏性を満たす証明の所で書きます。

それでは標本分散はどうでしょうか。標本分散については、不偏性を満たしていません。つまり、標本から得られる標本分散は母分散を上手く表しているといえないのです。

\(s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2\)は母分散を\(\frac{n-1}{n}\)だけ過小評価してしまうことが分かっています。

式に書くと
\(E[s^{2}] = E[\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2]
= \frac{n-1}{n}{\sigma}^{2}\)となります。
そこで期待値が\({\sigma}^{2}\)になるように\(\frac{n}{n-1}\)を掛けます。

\(\frac{n}{n-1}E[s^{2}] = \frac{n}{n-1}E[\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2]
=E[\frac{n}{n-1}\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2] = E[\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2]\)
この式はどこかで見た事がありますね!
そうです、これは不偏分散の式が期待値の中にあります。

よって
\(= E[\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2] = E[\hat{\sigma}^{2}] = {\sigma}^{2}\)

ここまでで、なぜ分散はn-1で割るのか理解していただけたでしょうか。n-1で割っているのは、不偏性という性質を満たすためなのです。
ということで、推定量としては不偏性を満たしている不偏分散の方が標本分散よりも好ましいと言われています。

もし誰かから「分散はなんでnで割るやつじゃなくてn-1で割るやつがあるの?」って聞かれたら「推定量として好ましい性質の不偏性を満たすためにn-1で割ってるんだよ」と爽快に答えましょう(笑)。

不偏分散が不偏性を満たす証明

それでは最後に、不偏分散が不偏性を満たす証明を書きます。

※なるべく分かりやすく書くつもりですが、確率・統計学の知識がここから少し必要になりますので、ご理解ください。

仮定
\(X_1, X_2,…X_n\)は同じ確率分布に従い互いに独立している確率変数とします。
確率分布のパラメータである母平均、母分散はそれぞれ\(\mu,~ {\sigma}^{2}\)
標本平均を\(M_n=(X_1+X_2+…X_n)/n\)と表わします。
不偏分散を\(\hat{\sigma}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-M_n )^2\)

それでは、まず標本平均の不偏性から行きます。
\(E[M_n]=E[(X_1+X_2+…X_n)/n]=E[\sum_{i=1}^{n}(X_i)/n]\)
ここで期待値の線形性という性質を使います。
\(=1/n(E[X_1]+E[X_2]+…[X_n])\)
\(E[X_i]=\mu\)より
\(=\frac{1}{n}・n・\mu\)
\(=\mu\)

これで標本平均の不偏性が証明できました。

続いて不偏分散についてもう少し詳しく見ていきます。
\(\hat{\sigma}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-M_n )^2\)
\(=\frac{1}{n-1}\sum_{i=1}^{n}(X_i^2-2X_i・M_n+M_n^2)\)
\(ここで総和記号である\sum_{i=1}^{n}を()の中に分配します\)。
\(=\frac{1}{n-1}(\sum_{i=1}^{n}X_i^2-2\sum_{i=1}^{n}X_i・M_n+\sum_{i=1}^{n}M_n^2)\)
\(M_n=\frac{1}{n}\sum_{i=1}^{n}X_iと\sum_{i=1}^{n}M_n^2=n・M_n^2\)より
\(=\frac{1}{n-1}(\sum_{i=1}^{n}X_i^2-n・M_n^2)\)

ここまでくればあともうひと踏ん張りです。次は期待値を考えていきます。

\(E[X_i^2]=Var(X_i)+(E[X_i])^2 \) より(分散の公式を変形させたもの)
\(=\sigma^2+\mu^2\)
続いて
\(E[M_n^2]=Var(M_n)+(E[M_n])^2\)
\(ここでさらにVar(M_n)について考えましょう。\)
\(Var(M_n)=Var(\frac{1}{n}(X_1+X_2+…X_n))\)
\(互いに独立であるXとYに対してVar(aX+bY)=a^2Var(X)+b^2Var(Y)\)という公式を使うと
\(=\frac{1}{n^2}n・\sigma^2=\frac{1}{n}\sigma^2\)

よって
\(E[M_n^2]=\frac{1}{n}\sigma^2+\mu^2\)

最後に\(E[\frac{1}{n-1}(\sum_{i=1}^{n}X_i^2-n・M_n^2)]\)を考えていきます。
期待値の線形性を使うと
\(=\frac{1}{n-1}(\sum_{i=1}^{n}E[X_i^2]-n・E[M_n^2])\)
\(=\frac{1}{n-1}(n・\sigma^2+n・\mu^2-n・\frac{1}{n}\sigma^2-n・\mu^2)\)
\(=\frac{1}{n-1}(n-1)\sigma^2\)
\(=\sigma^2\)

これにて\(\hat{\sigma}^{2}= \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-M_n )^2=\sigma^2\)が示せました‼
ここまで読んでくださった方本当にありがとうございます。誤りなどがございましたら指摘をお願いします。

それでは良い一日を。