【やり直数学】データのばらつきについてやり直す




やり直数学
Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone

前回、「平均の種類」についてやり直しましたが、今回は「ばらつき」についてやり直していきます。

「算術平均利用時、異常値による影響を考慮する必要性がある」とは言いますが、かと言って中央値を使っていれば安心、と言うわけでもなく。「データがどの程度ばらついているのか?」をキチンと把握する手順を、またエクセル関数による出し方と併せて見直してみましょう。

1. とりあえず、ばらつきの幅を見る場合

最大値と最小値

一番簡単なものが、これ。n個あるデータの中から、最大値と最小値を把握します。

最大値:MAX(数値 1, [数値 2], …) Officeヘルプ
最小値:MAX(数値 1, [数値 2], …) Officeヘルプ

レンジ(範囲)

最大値−最小値で求められるのが、レンジ(範囲)になります。いくつかの母集団がある場合(広告別で登録者の年齢分布を見る場合とか)、他の母集団と比べてレンジが広いほうが、ばらつき度合いが高いことになります。

また最大値と最小値それぞれの、平均値からの差(偏差)が大きく異なる場合は、異常値の影響を受けている可能性があります。

2. 平均値に対するばらつきを見る場合

分散

n個からなるデータ群において平均値を求めた場合、そのデータ群の平均値からのばらつき(偏差)を、さらに平均にしたのが「分散」です。値が大きいほど、ばらつきが大きいことになります。

分散を求めるには、平均値からの偏差をそのまま総和してしまうと「0」になってしまうので、偏差を2乗し、±の符号もなくした上で計算します。

分散

2乗の総和を「n-1」で割っていることに注目。普通に平均で考えるとnで割りますが、統計学上は「自由度」という概念のもと、「n-1」で割ります。この時のエクセル関数がVAR関数です。

VAR(数値 1,[数値 2],…) Ofiiceヘルプ

もし、n-1の自由度ではなく、n個そのもので割りたい場合はVARP関数を用います。

標準偏差

分散は偏差を2乗して求めたものなので、これを平方根(√)にしたものが標準偏差です。

標準偏差

ただばらつきを見るだけの場合、分散を見れば充分とも言えます。ただ、データの確率分布が正規分布に従う場合、この標準偏差を算出することで、

  • 平均 ± 標準偏差の中に、約68%のデータが含まれる
  • 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
  • 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる

事になります。下2つが「信頼区間」というもののベースとなっています。

標準偏差をエクセルで出すには、STDEV関数を使います。

STDEV(数値 1,[数値 2],…) Officeヘルプ

分散の算出時と同様、自由度ではなくnで割った値を出したい場合用に、STDEVP関数もあります。

3. 中央値に対するばらつきを見る場合

四分位数

中央値とは、n個のデータ群において1/2番目となる値をとったもの。データの中でちょうど中央に値するものになりますが、他にも1/4番目、3/4番目の値を「四分位数」として、データの幅を見ます。

エクセルでは、QUARTILE関数で各四分位数を求めることができます。

QUARTILE(配列,戻り値) Officeヘルプ

戻り値で、第◯四分位数を求めるかを指定します。こうして求めた数値を、最大値や最小値と併せてグラフ化したものが、「箱ひげ図」になります。

箱ひげ図(引用:Wikipedia)

上記の箱ひげ図の場合、中央値はデータ群の中でも上側に位置しているのが見て取れます。


という事で、ばらつきに関する質問にも「知野いずみ」がお答えしますので、辞書代わりにご活用ください。

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone