世界一のわかりやすさを目指す

世界一暇なデータサイエンティストが簡単に統計や数学を解説するらしいよ

具体例でわかる!平均値と中央値と最頻値の違い

具体例でわかる!平均値と中央値と最頻値の違い

 

平均値と中央値、そして最頻値の違いがわかりますか?

今回は具体例でわかりやすく説明しました!

 

それぞれの値の特徴なども簡単にまとめました!

 

 

ここにある会社があります

社員は7名

それぞれの給与は

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

とします。

 

それぞれこの会社の給与の平均値、中央値、最頻値はいくつかを求めていきましょう!

まずは平均値から。

 

平均はすべての給与を足して人数で割ればいいので

500+400+500+300+500+700+2000=4900

4900÷7=700

 

ということでこの会社の平均給与は700万ということになりますね!

 

おいおいおい、ちょっと待ってくれよと。
データをよく見てくれよと。

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

 

平均700万って言ってる割に

700万以上の人がFとGの2人しかいないじゃないか!!!!

これは詐欺に等しいぞ!!!

 

そうなのです。

この平均値というのはとても便利な指標なのですが

今回のように「大きな外れ値(今回の場合はG)」のように

「極端に平均から大きい(または小さい)数字」

があると平均値が外れ値に引っ張られてしまうことがあるのです!!!

 

この会社のように人数が少なくG(おそらく社長)

たくさん給与を受け取っている場合などは

平均値がこの会社の給与をうまく反映している値とは言い難いのです。

 

そんな時に便利なのが中央値です!

中央値は小さい順に並べてちょうど真ん中の値のことを指します。

 データを小さい順に並べて・・・

人    給与(万)

D   300

B   400

A   500

C   500

E   500

F   700

G     2000

今回は7名なので真ん中=中央は4番目の人になります!

4番目の人はCの500なので

中央値は500万になります!

 

(もちろんAとCとEは同じ値なので並び替えて4番目がAかEでも大丈夫です。中央値が500という結果に変わりはありません)

 

今回は7名なので奇数なので真ん中がありますが偶数の時は真ん中の2つの平均をとればいいです。

例えば6名だったときは3番目の人と4番目の人の平均が中央値ということになります。

 

最後に最頻値です!

これは最も頻繁に出てくる値ということで

一番よく出てくる値のことを指します。

人    給与(万)

D   300

B   400

A   500

C   500

E   500

F   700

G     2000

300が1人、400が1人、500が3人、700が1人、2000が1人

ということは今回は3人の500がもっともよく出てきた値、

つまり最頻値は500万ということになります!

 

今回の会社の場合では

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

平均値700、中央値500、最頻値500ということになりました!

 

簡単にまとめると

平均値とは、すべての数値を足して、数値の個数で割った値

中央値とは、小さい順に並べて中央に出てきた値

最頻値とは、最も頻繁に出てきた値ということになります。

 

では、少し複雑なグラフをおまけに見てみましょう。

平成21年の所得分布です。

f:id:statisticsworld:20190804181611g:plain

(出展:厚生労働省

https://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa09/2-2.html

 

このグラフを見ると

平均値は547万5千と書いてあり、中央値は427万と書いてありますね。

最頻値は最もよく出てくる値なので割合13.9%の200-300万の層ということになります!

 

このグラフも先ほどと同様、数は少ないものの収入が多い人たちに引っ張られて

中央値より平均値の方が大きくなっていますね。

全体の61.3%の人たちが平均値以下の所得ということになります。

 

この場合、より実態を表しているのは中央値かなという感じがしますね。

 

このように平均値、中央値、最頻値を分けて見ればそのグラフの実態が見えてきますね!

 

平均値以外にも中央値と最頻値、ぜひ使ってみてください。

 

 

今日も最後まで見ていただきありがとうございました!

 

 

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。