【やり直数学】確率分布と信頼区間をやり直す




やり直数学
Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone

前回は、データの「ばらつき」についてやり直しました。その際の「標準偏差」の部分で、「確率分布」について少し触れました。

ただばらつきを見るだけの場合、分散を見れば充分とも言えます。ただ、データの確率分布が正規分布に従う場合、この標準偏差を算出することで、

  • 平均 ± 標準偏差の中に、約68%のデータが含まれる
  • 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
  • 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる

事になります。下2つが「信頼区間」というもののベースとなっています。

信頼区間は、デジタルマーケティングにおけるコンバージョン率やクリック率の傾向を見る時にも使えます。よくあるのが、ABテストを実施する際の、「有意差」を見る場合です。

確率分布における二項分布

確率分布とは、そのまま簡単に言うと「とある事象の起こりやすさ」を表したものになります。特に「n回の試行のなかで成功する確率」を表す分布が「二項分布」です。

n回の来訪でコンバージョンが発生する回数の分布、と考えるとよいかと思います。また上記Wikipediaにおいて

期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(np) に対する良好な近似として正規分布がある。

という記述があり、例えばコンバージョン率1%で考えた場合

  • n > 5 / p = 5 / 0.01 = 500
  • n > 5 (1 – p) / p = 5 / 0.01(1 – 0.01) =  505.0505…

となり、来訪数500数回以上など、nを確保できている状況下であれば、正規分布として信頼区間を算出してよいのではないかと考えています。

そもそも信頼区間とは?

ABテストを全てのユーザーに実施し、全ての結果からどちらの結果が良かったか?を判断するのは困難です。あくまでテスト期間中に試行されたn回のサンプル(標本)に対しての結果をそのまま適用するのも不適切であり、母集団に回帰した時にどの程度の値を示すのか?を範囲で示す必要があります。

この時の「母集団に回帰した時に、◯%はこの範囲に収まるだろう」という範囲が「信頼区間」になります。前述の通り、95%の範囲や99%の範囲といったものが、よく使われます。

信頼区間(引用:情報科学・システム工学 教育向け フリー素材集)

正規分布における信頼区間の算出方法

正規分布におけるn回の標本平均からの母平均の信頼区間は、下記の計算式で求められます。

95%信頼区間

95%信頼区間

99%信頼区間

99%信頼区間

μ~は標本平均、σ~は標本標準偏差です。ここでは自由度n-1ではなく、データの個数nを用います。

99%信頼区間の2.576は、2.58として書かれている記事もよく見かけるので、それでもよいと思います。

この正規分布による区間推定を行うエクセル関数が、CONFIDENCE関数になります。

CONFIDENCE(α,標準偏差,標本数) Officeヘルプ

CONFIDENCE関数は、平均から + または – する値を返します。そしてあくまで、正規分布による母平均の区間推定です。t分布の場合は、CONFIDENCE.T関数を使用してください。


信頼区間に関しても「知野いずみ」で対応してます。というか最近、辞書登録とルールベース&機械学習ばっかりしてたので、ちょっと一旦、開発とかウェブ解析系のことに戻りたいかな…。頑張ります。

知野いずみ

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone