【数I】データの散らばりと四分位数【データの分析(第3回)】

数学Ⅰ

データの平均値、中央値が等しくても、データの散らばり具合が異なることも多く、代表値だけでは、データの分布の状態をとらえることができない。ここでは、データの散らばり度合いを表す数値や図について学習していきます。

範囲

データの散らばり度合いを表す値として、データの最大値から最小値を引いた差が考えられる。この差をデータの範囲といいます。データの範囲が大きいほど、散らばりの度合いが大きいと考えることができる。

四分位数

データの中に極端に離れた値があれば、データの範囲は大きく変わります。そこで、データの中央値の近くの値を取り出して散らばりの度合いを比較する方法を考えたい。

データを値の大きさの順に並べたとき、4等分する位置にくる値を四分位数(しぶんいすう)といいます。四分位数は、小さい方から順に第1四分位数、第2四分位数、第3四分位数といい、順に\( Q_1\)、\( Q_2\)、\( Q_3\)で表す。

四分位数は次の手順で求めます。

  1. データを値の大きさの順に並べ、中央値を求める。
  2. 上で求めた中央値を境界といて、データの個数を2等分し、値が中央値以下の下組と、値が中央値以上の上組に分ける。ただし、データの大きさが奇数のとき、1で求めた中央値は、下組にも上組にも含めないものとする。
  3. 下組の中央値、上組の中央値を求める。

1で求めた中央値が\( Q_2\)、3で求めた下組の中央値が\(Q_1 \)、上組の中央値が\(Q_3 \)となる。 

3つの四分位数\( Q_1\)、\( Q_2\)、\( Q_3\)は、データの値の小さい方から25%、50%、75%に対応する数値であるともいえる。

四分位範囲、四分位偏差

箱ひげ図

コメント