なみ‐すう【並数】
読み方:なみすう
⇒モード4
最頻値
統計学における最頻値(さいひんち)またはモード(英: mode)とは、データや確率分布で頻度(度数、確率)が最大の値のことである[1]。(データ上で最も出てくる頻度が高い数値)日本産業規格では、「離散分布の場合は確率関数が,連続分布の場合は密度関数が,最大となる確率変数の値。分布が多峰性の場合は,それぞれの極大値を与える確率変数の値」[2]と定義している。
最頻値は平均値や中央値と併せて、データ、確率分布の代表値の一つである[3][4]。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。
最頻値は一意とは限らない。一様分布は全ての値が最頻値となる。
確率分布の最頻値
離散確率分布の最頻値は、確率質量関数が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。連続確率分布の最頻値は、確率密度関数が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意とは限らず、確率質量関数や確率密度関数が複数の地点で最大となることもある。
先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の極値をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。
正規分布などの線対称な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。
標本の最頻値
標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 (英: bimodal)」と呼び、最頻値が2つよりも多ければ「多峰性 (英: multimodal)」と呼ぶ。
連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の区間に分割し、ヒストグラムを作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。サンプルサイズが小さい場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間のサンプルをある程度以上確保するために区間数を少なくする。もう1つの手法としてカーネル密度推定があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。
次のMATLABのコード例は、標本群から最頻値を計算するものである。
X = sort(x);
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
このアルゴリズムでは、まず標本群を昇順にソートする必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。
平均値、中央値、最頻値の比較
代表値の比較 | ||||
種類 | 意味 | 式 | 例 | 結果 |
算術平均 | 総和をサンプルサイズで割ったもの | ![]() |
- >> 「並数」を含む用語の索引
- 並数のページへのリンク