やり直数学

【やり直数学】データのばらつきについてやり直す

前回は「平均の種類」についてやり直しました。単純な算術平均だけではなく、扱う数字によって平均も使い分けが必要なんですね。

さて今回は、「ばらつき」について、やり直していきましょう。

「(算術)平均を利用する際は、異常値などによる偏りの影響を考慮する必要性がある」というのは、何となくイメージが湧くかと思います。各世代別の年収に関する調査結果を見ると、平均値と中央値で全く値が異なることがありますよね?

では、中央値を使えば安心か?と言うと、そうでもありません。分布はあくまで正規分布に近ければ、平均を使うことに何ら問題はありません。その分布の状態が、中央が高く狭い範囲に集中しているか、もしくは低くなだらかに広範囲に分布すているかで、その母集団の持つ性質は変わってきます。

範囲が広いほど、データはばらついていると言えます。この「データがどの程度ばらついているのか?」を把握する手順について学びなおしつつ、エクセル関数による計算方法を知りましょう。。

ばらつきの幅を知る統計指標

1. 最大値 / 最小値

まず基本となるのが、最大値と最小値です。n個あるデータの中における、最も大きな値が「最大値」、最も小さな値が「最小値」となります。

最大値:MAX(数値 1, [数値 2], …) Officeヘルプ
最小値:MIN(数値 1, [数値 2], …) Officeヘルプ

2. レンジ(範囲)

最大値 − 最小値で求められるのが、「レンジ(範囲)」です。いくつかの母集団がある場合(広告別で登録者の年齢分布を見る場合とか)、他の母集団と比べてレンジが広いほうが、ばらつき度合いが高いことになります。

また、最大値と最小値それぞれに対し、平均値からの距離(偏差)を出した時、偏差が大きく異なるようであれば、どちらかが異常値の影響を受けている可能性があるので注意が必要です。

3. 分散

n個からなるデータ群において平均値を求めた場合、そのデータ群の平均値からのばらつき(偏差)を、さらに平均にしたのが「分散」です。値が大きいほど、ばらつきが大きいことになります。

分散を求めるには、平均値からの偏差をそのまま総和してしまうと「0」になってしまうので(そもそも平均とは、偏差の総和を0にするということ)、偏差を2乗し、±の符号もなくした上で、分散を求めます。

分散

2乗の総和を「n-1」で割っていることに注目。普通に平均で考えるとnで割りますが、統計学上は「自由度」という概念のもと、「n-1」で割ります。この時のエクセル関数がVAR関数です。

VAR(数値 1,[数値 2],…) Ofiiceヘルプ

もし、n-1の自由度ではなく、n個そのもので割りたい場合はVARP関数を用います。

標準偏差

分散は偏差を2乗して求めたものなので、これを平方根(√)にしたものが標準偏差です。

標準偏差

ただばらつきを見るだけの場合、分散を見れば充分とも言えます。ただ、データの確率分布が正規分布に従う場合、この標準偏差を算出することで、

  • 平均 ± 標準偏差の中に、約68%のデータが含まれる
  • 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
  • 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる

事になります。下2つが「信頼区間」というもののベースとなっています。

標準偏差をエクセルで出すには、STDEV関数を使います。

STDEV(数値 1,[数値 2],…) Officeヘルプ

分散の算出時と同様、自由度ではなくnで割った値を出したい場合用に、STDEVP関数もあります。

4. 四分位数

中央値」とは、n個のデータ群において1/2番目となる値をとったもの。データの中でちょうど中央に値するものになりますが、他にも1/4番目、3/4番目の値を「四分位数」として、データの幅を見ます。

エクセルでは、QUARTILE関数で各四分位数を求めることができます。

QUARTILE(配列,戻り値) Officeヘルプ

戻り値で、第◯四分位数を求めるかを指定します。こうして求めた数値を、最大値や最小値と併せてグラフ化したものが、「箱ひげ図」になります。

箱ひげ図

(引用:Wikipedia)

上記の箱ひげ図の場合、中央値はデータ群の中でも上側に位置しているのが見て取れます。


データのばらつきを知るにも、様々な種類があることが分かりました。異常値の発見やデータの集中具合など、知りたいものに併せて、ばらつきの指標も使い分けましょう。

関連記事一覧