確率分布と信頼区間

確率分布の種類とExcelでの信頼区間の求め方

母集団のデータのばらつきに関する記事のなかで、その指標の1つである「標準偏差」を説明する中で、「確率分布」について少し触れました。

ただばらつきを見るだけの場合、分散を見れば充分とも言えます。ただ、データの確率分布が正規分布に従う場合、この標準偏差を算出することで、

  • 平均 ± 標準偏差の中に、約68%のデータが含まれる
  • 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
  • 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる

事になります。下2つが「信頼区間」というもののベースとなっています。

信頼区間は、デジタルマーケティングにおけるコンバージョン率やクリック率の傾向を見る時にも使えます。よくあるのが、ABテストを実施する際の、「有意差」を見る場合です。

確率分布の種類

1. 二項分布

確率分布」とは、簡単に言うと「とある事象の起こりやすさ」を表したものになります。特に「n回の試行のなかで成功する確率」を表す分布が「二項分布」です。

二項分布(確率密度関数)

(引用:Wikipedia)

n回の来訪でコンバージョンが発生する回数の分布、と考えるとよいかと思います。またWikipediaにおいて

期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(np) に対する良好な近似として正規分布がある。

という記述があり、例えばコンバージョン率1%で考えた場合

  • n > 5 / p = 5 / 0.01 = 500
  • n > 5 (1 – p) / p = 5 / 0.01(1 – 0.01) =  505.0505…

となり、来訪数500数回以上など、nを確保できている状況下であれば、正規分布として信頼区間を算出してよいとされています。

2. カイ二乗分布

ABテストでベースとなる確率分布で最も利用されているのが「カイ二乗分布」です。カイ二乗分布は「母分散の区間推定」を行う際に用いられます。分布は、平均からの距離 = 偏差の符号をなくし、設定した「自由度」で表現されます。

カイ二乗分布 (確率密度関数)

(引用:Wikipedia)

分布の形は二項分布と違いますが、信頼区間については同じように取り扱うことができます。

3. スチューデントのt分布

正規分布における母平均と母分散が未知であり、かつ標本数が小さい場合に平均を推定する要な場合は、「スチューデントのt分布」を用います。

スチューデントのt分布 ()確率密度関数

(引用:Wikipedia)

二項分布と同じ正規分布のため、これも信頼区間の考え方は同様となります。

信頼区間とは?

信頼区間」とは、「母平均が定めた確率でその範囲にあることを示す区間」のことです。多くは、95%の確率でその範囲にあるとする「95%信頼区間」か、99%の確率でその範囲にあるとする「99%信頼区間」が用いられます。

信頼区間

全数調査において、平均値が確率で変化することはありません。そのため信頼区間は、

  • 標本調査によって推定される「母平均の期待値」に対して信頼区間を求める
  • その作業を繰り返し行った場合、定めた確率で信頼区間に収まる

事を意味します。

全数調査と標本調査

例えば、ABテストをの対象ユーザーはあくまでその期間にアクセスのあった、いわゆる標本となります。テスト期間中に試行されたn回の標本に対して結果をそのまま適用するのは不適切であり、母集団に回帰した時にどの程度の値を示すのか?を範囲で示す必要があります。

この母平均の期待値に対して、ABテストにおける有意差を検定する必要があります。

正規分布における信頼区間の算出方法

信頼区間を求めるExcel関数は、母分散が既知かどうかで変わります。

母分散が既知の場合

母分散が基地の場合、正規分布における信頼区間は、下記の計算式で求められます。

95%信頼区間

95%信頼区間

99%信頼区間

99%信頼区間

μ~は標本平均、σは母分散から求められる標準偏差です。

この分布による区間推定を行うExcel関数が、CONFIDENCE.NORM関数になります。

CONFIDENCE.NORM(α,標準偏差,標本数) Officeヘルプ

CONFIDENCE.NORM関数は、平均から + または – する値を返します。

t分布の信頼区間

母分散が未知の場合は、上記の信頼区間の算出式が使えません。母分散が未知で不偏分散を用いるt分布の場合は、CONFIDENCE.T関数を用います。

CONFIDENCE.T(α,標準偏差,標本数) Officeヘルプ


信頼区間の考え方は非常に繊細なものですが、異常値の発見などで必要な知識ですので理解しておきましょう。

関連記事一覧