世界一のわかりやすさを目指す

世界一暇なデータサイエンティストが簡単に統計や数学を解説するらしいよ

統計学を学ばないと損するワケを数式を一切使わず解説!

データ分析や活用が必要以上に持ち上げられるバブルが
ある程度落ち着いてきて、周りの方のだいぶ理解も進んできたと思います。



なので!
今日はデータ分析や活用の根幹、統計について
学んでいないと損するワケを

数式を一切使わずに

具体例を用いて解説したいと思います。



昨今データ活用や分析の有用性は日に日に高まっていますが

なぜ知ってないと損になるのか?までは

実はあまり周知されていない気がします。



データ活用やデジタルトランスフォーメーション(DX)を取り入れたいけど
どうやら成果?はでるらしいんだけど、
どういう効果があって何ができるの?
あまりわかってないかもしれない
という経営者や幹部の方、

もしくは
経営者や幹部の方にデータ活用の重要性やDXを推進するための説得として
本記事が少しでもお役に立てれば幸いです。



では本題です!

統計学を学ばないと損するワケ

実は統計学はデータ活用の基本といってもいい分野です。
データ活用は統計学なしには有効性を発揮しにくいです。

つまり、データ活用と統計はセットだとお考え下さい。


統計学を学ばないと損するワケは複数ありますが、

事業を行う上で損になるポイントは
限られたリソース(人、金、モノ、情報)を最適化できていないことが増えます。


また、現状把握(市場動向、顧客流入、消費者志向など)が
統計を用いる他社企業と比べて劣ってしまうということです。


現状把握の解像度が他社より低いと改善点や施策などの打ち手が少しずつズレていきます。
どんなに優れた経営者でも現状把握の解像度が低ければ素晴らしい手は打ちにくいです。

では統計を学ばないと損するのか?
具体例でみていきましょう。

突然ですが、みなさんはみそ汁の味見をするときに全部飲んで確かめますか?
おそらくしないと思います。
お腹いっぱいになってしまいますし、何より味見ですからね。

きっとみそ汁の一部だけ味見して塩分を調節したりするはずです。

統計学もこれと一緒で一部を味見(調査)してみそ汁(市場など)の全体を把握するのです。


全部飲む(全部調査する)のはコストが高すぎますが、
一部確かめるだけで全体の味はだいたいわかりますよね。
(もちろんみそ汁がしっかりかき混ぜてあることも大切ですがこれも統計学に含まれています)


1を調べて10を知ることができるのが統計学なのです!(ドヤ顔)

そしてこれを数学的に確率を用いて出していくのが統計です。
感覚ではなくすべて数字なので客観性が高いというのも素晴らしいです。

まだ変なブームだったころは、
みそ汁はしょっぱいです!
いや、それはもうわかってる
とか
みそ汁にはねぎや豆腐、わかめが入っています!
いや、それもわかっている
みたいなことも多かったのですが
(今でも完全にないとは言い切れません)



昨今では
実は隠し味に〇〇が入っている
とか旨味成分が実は大事とか抽象度の高い分析もできるようになってきています。

また、実施した施策に実際効果があったのか?も数学的に検証できます。

施策が有効だったのかは
今後も様々な経営判断をしていく上で非常に有効だと考えています。
しかも数値で出てくるので客観性が非常に高いです




一番のポイントは一部調べるだけで全体がわかるということです。
一部だけでいいので素早く、コストは低く、全体を調べることができます。

では他社が素早くコストを低く、全体を調べて最適な打ち手をうち、
自社はそうではなかったら
おそらく競争で勝つことは難しいでしょう。
また、実施した施策も一部を調べて成功しそうかどうか?などをチェックできるので
最初に小さなコストでたくさん試すこともできます。

さらに、統計やデータ分析の力を使うことで
限られたリソースを最適に配分することで最短で結果を出すことが可能になります。



いかがでしたでしょうか?
統計を学ばないと損する理由がなんとなくでもご理解いただけたなら幸いです。


今回は非常に簡単に解説しましたので、
プロフェッショナルの方には疑問点もあるかと
思いますがわかりやすさを重視させていただきました。

もしこういった話や記事など面白いなと思いましたら
引き続き無料で公開してまいりますので
楽しみにしていてください。

質問や気になる点、もしくは間違いなどありましたらこちらまで。

twitter.com

 

ぜひ気軽にリプなりメッセージなりください。

今日も最後まで読んでいただきありがとうございました!

具体例でわかる!ベイズ推定とベイズの定理


具体例でわかる!ベイズ推定とベイズの定理

 

 なんか高校生の時に習ったような・・・?

ベイズの定理!

これを使うとベイズ推定ができます!

実はこれは多くのビジネスなどで実際に使われているめちゃくちゃ便利な代物だったんです!

(ナ、ナンダッテー)

 

マイクロソフトが飛躍的に成長を遂げたのもベイズ

グーグルの検索エンジンの自動翻訳システムでもベイズ

そして身近な迷惑メールのシステムにもベイズ

実はずっと身近にいたけどよく知らないベイズ

 

今回も具体例でわかりやすく説明しました!

 

 

まずベイズ推定とは一体なんぞや?

みんな大好きwikipediaを見てみましょう。

ベイズ推定ベイズすいてい、: Bayesian inference)とは、ベイズ確率の考え方に基づき、観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、確率的な意味で推論することを指す。

観測事象から定したい事柄(原因事象)を確率的な意味で推論すること。

 

うーん?わからんぞ

 

もうちょっと簡単な具体例に直してみましょう。

 

送られてきたメールの中に「出会い系」とあったら(観測された事実=観測事象

迷惑メールの確率が跳ね上がる(推定したい事柄=原因事象

ってことです!

 

メールが送られてきたときに迷惑メールと普通のメールを分けたいですよね?

 

 

つまり、このメールが迷惑メールなのか、そうでない普通のメールなのかを推定したいんです!(推定したい事柄=原因事象

 

それを判断するためにメールに含まれている文章(観測された事実=観測事象)で

事前にシステムに判断させて分けちゃいましょう!って話です。

 

(たまに間違えて迷惑メールに普通のメールが入っちゃったりしますが、これはベイズ推定に基づいて判断されているので確率上間違えちゃったってことです。)

 

では具体的な数字を使ってどうやって判断しているのか見ていきましょう!

 

先ほどの例を使っていきますね。

 

今までの調査ではランダムに選んだメールの80%が普通のメール20%が迷惑メールだとわかっています。

 

調査によると、「出会い系」というワードを普通のメールが含む確率は20%だが

迷惑メールの場合は80%も含まれているということがわかりました。

ランダムに選んだメールが

この「出会い系」というワードを含んでいた時

迷惑メールである確率はいくつになるか?ということです。

 

普通に考えたら送られてきたメールは全体の

80%が普通のメール

20%が迷惑メールだから

迷惑メールである確率は20%でしょ!?

 

違います(ドヤ顔)

 

今回は事前に観測された「出会い系」というワードがメールの中に含まれています。

この場合なんと迷惑メールである確率が・・・50%にまで跳ね上がるのです!!!

 

具体的な計算式を図と一緒に見てみましょう。

f:id:statisticsworld:20191231220527j:plain

 

 まず全体のメールのうち迷惑メールが20%(黄色)、普通のメールが80%(青色)

です。

 

全体のメールの割合の20%にあたる

迷惑メールのうち「出会い系」というワードが含まれいている確率が80%なので

20%×80%=16%が黄色で示された

迷惑メールであり、かつ「出会い系」というワードが含まれているメールです。

 

同じように全体の80%を占める

普通のメール「出会い系」というワードが含まれいる確率が20%なので

80%×20%=16%です。

 

ここでポイントになるのは

すでにこのランダムに選ばれたメールには「出会い系」という文字が含まれいるメールである!

ということです!

 

つまり全体のメールから迷惑メールか普通のメールかを判断するのではなく

f:id:statisticsworld:20191231222555p:plain

「出会い系」というワードが確認されたこの赤枠の中で確率を考えるということです。

 

なぜかというと

このランダムに選ばれたメールはすでに「出会い系」という単語を含んでいるからです!

 

 

他の「出会い系」を含んでいない確率を考える必要がないのです!

 

なので

 

このランダムに選ばれたメールが「出会い系」というワードが含まれていた場合

 

迷惑のメールの確率16%

普通であるメールの確率16%

合計32%のうち

 

半分が迷惑メールで、半分が普通のメール

(それぞれ16%ずつですからね)

つまり迷惑メールである確率が50%ということになるのです!

 

実際に今やった計算を数式にすると

(0.2×0.8)÷{(0.2×0.8)+(0.8×0.2)}

 「出会い系」が含まれた迷惑メールの確率 ÷ 「出会い系」が含まれた迷惑メールの確率「出会い系」が含まれた普通のメールの確率

ってことです。

 

実はこれがベイズの定理です。

 

ベイズの定理は色々変形して普段は使用しますが

数学に慣れていない人は

こうして事前にわかったこと(観測事象)から知りたいこと(原因事象)がわかる

便利なものって理解で大丈夫です!

 

 

今回の場合であれば

「出会い系」という単語が含まれていたかどうか(事前に分かったこと=観測事象)から

迷惑メールか普通のメール知りたいこと=原因事象)がわかる便利なものだと思っておいてください。

 

普通に判断したら20%の確率の迷惑メール50%にまで跳ね上がりましたね。

 

もっと多くの迷惑メールに多く含まれている単語を組み合わせていけば

迷惑メールである確率が上がり普通のメールである確率は下がります

 

今私たちが使っている迷惑メールの判別システムは

このベイズが基本となって使われています。

 

 

ではどのようにビジネスで応用できるのか?

例えば

あるECサイトでとある顧客がる行動」をとったとき(事前にわかったこと=観測事象)その商品を購入する確率(知りたいこと=原因事象)がわかったりします。

 

これはつまりある行動を顧客がとったとき購入意思がある確率が跳ね上がるということに他なりません。

ここから先はもう言わなくてもわかりますよね。

 

このようにベイズは非常に多くの企業で活用、応用が利く素晴らしいものなのです!

ベイズももちろん統計の仲間です。

 

もし興味がわいたら勉強してみると業績向上に大きく貢献するかもしれませんよ?

 

もちろん私に相談いただいてもかまいません。

 

今日も最後まで見ていただきありがとうございました!

 

 

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエストも随時受付中です。

気軽にリプなりメッセなりください。

 

超簡単にわかる!機械学習4種類!

超簡単にわかる!機械学習4種類!

 

機械学習(マシーンラーニング)なるものが流行っているらしいぞ!

なんか魔法みたいにすごい成果でるんでしょ?

うちでもなんかやってよ!

という誤解を起こさないために!

 何でもできる魔法ではないのです。

 

 

4種類紹介させていただくので

自社ではどの学習方法を使えば利益が出るのか?

を考えながら是非読んでみてくださいね。

 

 

 

 

その前に人工知能(AI)、機械学習(ML)、深層学習(DL)の違いは?という方は

以前書いた記事を読んでいただけたらと思います。

 

statisticsworld.hatenadiary.com

人工知能機械学習と深層学習の違いが

多分ご理解いただけたかと思います!

 

その前提で今日の話は進めていきます。

 

少し機械学習だけ復習すると

簡単に言うと

「人間と同じような認知・判断を機械に行わせる人工知能の手法の一つ」ってことです。

 特にwikipediaでは「学習の仕組みを機械で実現する」と書いてあり、その側面が強いです。

また、学習とは「過去の結果を用いて未来の結果を予測すること」だと考えてください。

 

ではこのような

 

過去の結果を用いて未来の結果を予測する認知・判断の学習方法は大別すると4種類です。

 

 

機械学習4つの種類とは?

 

1.教師あり学習

 

そもそも教師ありとは?

 教師ありとはデータにラベル、つまりこれは犬の画像ですよ!と

人間が前もって学習させるデータが「何なのか」をシステムが判断できるよう教師のように教えているわけです。

 

 

この学習法は最も一般的で脚光を浴びている深層学習(ディープラーニング)はほぼこれです。

 

具体的には光学文字認識画像分類、言語の翻訳、音声認識などです。

 

例えば、

数字の0~9を分類するもの、画像が犬か猫は判定する、

翻訳機、アレクサなどの音声認識

これらの教師あり学習法を使っているとみていいでしょう。

 

 

もうちょっとかっこいい具体例を出すと

 

・シーケンス生成

 ⇒例えば食事の画像をアップするとそれぞれの食べ物が説明されて何キロカロリーとか説明がでる。

 

・物体検出

 ⇒例えば監視カメラで人を認識した時だけ録画機能をONにする

などがあります。

 

 

 

 

2.教師なし学習

 

教師あり学習」があれば「教師なし学習」もある!ということで

2つめは教師なし学習です。

これはよくクラスタリング、次元削減(下で説明しますね)で使われます。

 

クラスタリングはいろんな種類の花があったときに

例えば3種類に分類したい!と指定して

画像をとりあえず認識させます。

 

機械が自動で分類して

 

1グループ目は赤っぽい花たち

2グループ目は黒っぽい花たち

3グループ目は青っぽい花たち

 

というようにラベルがなくても(つまりどんな種類の花かわからなくても)

画像のRGB(色)を認識して

 

指定したグループにいい感じにわけてくれます。

これは機械グループ化した後

人間がこのクラスタリング赤、黒、青に分けた感じかな?と判断が必要です。

 

これは何に応用できるか?というと

主に顧客分類などです。

 

例えば、自社の顧客を5つのカテゴリにわけます。

性別?年齢?人数?購入頻度?滞在時間?それとも購入金額?

機械がもしかしたら我々には思いつかなかった分類をするかもしれません。

 

1つ目のグループは30代女性、結婚している、日中に来る人のグループ

2つ目のグループは人数が2人で男性と女性、年齢は20代、購入金額は控えめ

などです。

 

これを人間が見て

1つ目はどうやら主婦層かな?

2つ目は若いカップルっぽいな

などと分類名を決めます。

 

それぞれグループに対して商品群が弱いところに新商品を打つのか?

それとも自社が強いグループへのアプローチをより強化してシェアを狙いに行くのか?

など戦略立案の手助けとなってくれるでしょう。

 

 

続いて、同じ教師なし学習

次元削減です!

 

これで3次元の世界から2次元の世界にいけるぜー!と思った方は残念でした。

 

次元削減というのは簡単に言うと特徴を減らすってことです。

 

例えばZack氏は、

 

かっこよくて、統計に強くて、頭もよい、説明もうまい

スマート、読書家、かつデータサイエンティスト・・・

 

正直ごちゃごちゃしててわかりにくいですよね。

 

それを簡単に

 

Zack氏は天才!

 

みたいに特徴をわかりやすくしてくれます。

 

覚えやすいですね。

 

はい。調子に乗りすぎました。

 

 

もう少し具体例を出すと

 

とある食べ物の商品アンケート調査から

 

味が良い、香りがよい、見栄えが良い、食べ応えがある

 

などを総称して「おいしい」みたいな特徴を抽出してくれます。

色々書いてあるよりもわかりやすいですよね。

 

 

 

 

3.自己学習

 

これは特殊な教師あり学習とも言えますが、

最近発展が著しく、別カテゴリとして扱ってもよいのでは?

との思いからあえて分けさせていただきました。

 

具体的に例を挙げると

実在しないモデルの顔を作成ができます。

大量のモデルの画像を学習させて、

似たような実在しないモデルの顔を生成するということです。

 

他にも名画を大量に学習させて似たような絵を描かせるとかも

この自己学習になりますね。

 

 

 

4.強化学習

 

これはみなさんも聞いたことがあるかもしれません。

 

AlphaGoみたいな世界トップクラスの囲碁が打てるとニュースにもなりました。

 

この強化学習ではある環境における情報を集め、

何らかの報酬が最大になるような行動を学習していきます。

 

囲碁であれば、盤面という環境を見て、最終的なゲームの勝利率が最大となるように

どこに石を置けばいいのか?という行動を学習するということになります。

 

おそらく自動運転、ロボット工学、などのアプリケーションで今後著しい成果が出てくる学習方法ではないかと考えています。

 

 

今回は大まかに機械学習の方法を4種類説明させていただきました。

 

自社はどの機械学習を行えば利益に繋がりそうでしたか?

少しでも興味がわいたのならば幸いです。

 

 

次回は

「自社でもできる!?機械学習の一般的な手順」

について書きたいと思います!

お楽しみに。

 

(面白かったらTwitterで気軽に「オモローw」とか絡んでいただけたらと思います。FF外とか全く気にしないので。)

書いてほしい記事みたいなのもTwitterで随時募集しています。

突然晩ご飯!みたいに突撃いきなり記事リクエスト!大歓迎です。

Twitter:@zack32319636

お仕事の相談などはDMください。

(スポット相談は60分2万円になります。)

 

※補足

 超簡単に説明したので厳密にはここが異なる!みたいなところもあるかと思いますし、

人によって定義や分類が異なる部分でもあります。

今回はわかりやすさを優先とさせていただいたのでご理解いただけたら幸いです。

「直感を裏切る統計」~あなたのその判断間違ってますよ~

「直感を裏切る統計」~あなたのその判断間違ってますよ~

 

今回は会話形式です。

 

 

~~とあるラーメン店、商品開発部~~

 

部長「zack氏の影響でわが社もデータを活用してテストを始めてみたぞ」

 

社員「はい!新作ラーメンの味のテストを行いました!結果をご覧ください!」

 

部長「今回はわが社の社運をかけたビックプロジェクトだ。決して失敗できないからな。どれどれ・・・」

 

 

新作ラーメンをそれぞれ2000名ずつ

こってり味とあっさり味を調査

 

 

       満足  不満   合計

こってり  1160   840   2000

あっさり  1240   760   2000

合計    2400    1600   4000

 

部長「ふむ。ということはあまり差はないが

 

強いて言えばあっさりの方がよさそうだな!

 

人数も、それぞれ2000人調査したし十分だな!」

 

社員「はい!そうですね!これでヒット間違いなしです!」

 

 

 

その時ーーーーー

 

部長に電流走るーーーーー

 

カイジの画像省略)

 

違和感・・・・

 

何とも言えない違和感・・・・

 

わが社ののラーメン、実はこってりに自信があった・・・

 

それなのに何故あっさりの方が・・・

 

・・・・

 

 

部長「念のためzack氏に依頼を頼んでみよう」

 

社員「そんな必要ありますか?データを見ても、あっさりが優勢ですよ?

 

どんなに優れたデータサイエンティストでもこの事実は変わらないと思いますが」

 

部長「確かにそうかもしれん。だが、今回のプロジェクトは失敗するわけにはいかない。保険はかけておこう。」

 

 

 

~~後日~~

 

zack「これは、こってりの方が優勢ですね」

 

社員「バカな!!!そんなはずがない!!!」

 

部長「まぁ、まず話を聞いてみようじゃないか」

 

zack「こちらをご覧ください。男女別に満足度調査をわけたものです」

 

女性の調査結果

       満足  不満   合計

こってり   380     20   400

あっさり    1220   380    1600

合計      1600     400    2000

 

男性の調査結果

       満足  不満   合計

こってり    780     820   1600

あっさり        20   380     400

合計        800    1200   2000

 

社員「ただ男女別に分けただけじゃないか!合計したら結果は一緒だろ?

まったく、データサインティスとも大したことないな」

 

部長「いや、、、待て社員くん!これは!!!」

 

zack「お気づきになりましたか。」

 

部長「よく見てみると、

女性はこってりの満足の割合は95%程度、       

あっさり75%程度、

男性はこってりの満足度が50%程度、

あっさり5%しかない!!!

 

女性の調査結果

       満足  不満   合計  満足度割合

こってり   380     20   400   95.00%

あっさり    1220   380    1600  76.25%

合計      1600     400    2000

 

男性の調査結果

       満足  不満   合計  満足度割合

こってり    780     820   1600   48.75%

あっさり        20   380     400   5.00%

合計        800    1200   2000

 

 

 

社員「な、なんてことだ!!!なぜこのようなことが・・・」

 

社員「男女のどちらの表からもあっさりよりこってりの方が満足度が高い!!!

合算されたで表ではこってりよりあっさりの方が

満足度が高いという逆の結果になっている!!!」

 

ラーメンデータ

       満足  不満   合計

こってり  1160   840   2000

あっさり  1240   760   2000

合計    2400    1600   4000

 

zack「これは男女それぞれの注文数の違いによるものであり、その影響がでたんですね。

合算されたデータを見ただけでは誤った判断を下すところでしたね」

 

部長「zackくん、君のおかげでビックプロジェクトの判断ミスを未然に防げたよ。間違った判断をしていたら大変な損害が出ていたところだった。」

   

zack「恐縮です。また何かありましたら、お声がけください。」

 

 

~~~(全部妄想の例えお話です)~~~~

 

「直感を裏切る統計」と称して

今回はデータ分析における有名なパラドックス

シンプソンのパラドックスをご紹介させていただきました。

 

「全く同じデータでも、

データの見方によって結論が異なる場合がある」

 

ただデータを集計し判断するだけでは誤った判断を下す可能性があります。

様々な角度から検証を重ねてみることが大事ってことですね。

(だからデータサイエンティストには仮説設定やデータの見方など知識や教養が求められます)

 

 

今日も最後まで読んでいただきありがとうございました!

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエスト、

仕事の依頼(相談60分20000)なども随時受付中です。

(お仕事の依頼はDMでお願いします)

気軽にリプなりメッセなりください。

 

いつもご覧いただきありがとうございました!

合コン必勝戦略!?アプローチした方が有利VS待つのが有利??

合コン必勝戦略!?アプローチした方が有利VS待つのが有利??


恋愛は先手必勝!自分からアプローチするべし!

いやいや、追いかけられてこそ幸せな恋愛ができる!

f:id:statisticsworld:20190923205144j:plain古今東西恋愛に関する様々な議論が交わされてきました。

この恋愛論争に終止符を打つべく結論を求め、モデルを作ることにしました!

 

私はデータサイエンティストなので

合コンにおいてアプローチ側が有利なのかアプローチされる側が有利なのか

数理モデルを使って検証してみたいと思います!

 

まず簡単なモデルを作ります。

 

3対3の合コンを想定します。

男性側をA、B、C   (男はモブだ)

女性側をあや、まい、ゆめとします。

男性それぞれに女性の好み、つまり優先順位があります。

また、女性にもそれぞれ男性の優先順位があります。

 

ここではこの優先順位を>で表したいと思います。

 

例えば

Aの優先順位が 

あや>まい>ゆめ 

だった場合は

あやちゃんが最も好きでダメだったら

その次にまいちゃんにアプローチして

最後にゆめちゃんにアタックするってことですね。

(とんだクズ野郎だけど数理モデルだから!仕方ない!)

 

 

男性陣の好み優先順位

A まい>あや>ゆめ

B あや>ゆめ>まい

C まい>ゆめ>あや

 

女性陣の好みの優先順位

あや A>B>C

まい B>A>C

ゆめ C>B>A

 

と仮定します。

 

誰も嘘をついて得をすることはないので

嘘の好みの順位を持つ必要はありません。(自分が不利になるだけですから)

 また、付き合えるのはお互いに一人とします。

 

 では男性側からアプローチした場合にどうなるでしょうか。

A まい>あや>ゆめ

B あや>ゆめ>まい

C まい>ゆめ>あや

 

なので

まず全員が第一希望の相手にアタックします。

A→まい

B→あや

C→まい

 

別々の男性から同時にアプローチされた場合は

女性側の優先順位を確認してより好ましい相手を選びます。

まいは AとCの2人からアプローチされているので優先順位を確認します。

あや A>B>C

まい B>A>C

ゆめ C>B>A

なのでAとC両方からアプローチされた、まいはAを選びます。

 

その場合マッチングはこうなります。

A と まい

B と あや

C 相手なし

 次にCの優先順位は

C まい>ゆめ>あや

 なのでゆめにアプローチします。

A と まい

B と あや

C と ゆめ

カップリングが成立します。

 

この場合、1>2>3の順位で好ましい異性とカップリングできることになり、

3人合わせた順位を総合点として、合計数値が低い方が好ましい異性と付き合うことができたことになります。

A まい>あや>ゆめ

B あや>ゆめ>まい

C まい>ゆめ>あや

 とカップリングしたので

 

Aは 1番目 

Bは 1番目 

Cは 2番目

が希望順位となります。

つまり、男性側の総合点はとなります。

 

一方女性側は

あや A>B>C

まい B>A>C

ゆめ C>B>A

 なので2+2+1で女性側の総合点はとなります。

 男性有利な結果となりました。

 

 では次に女性からアプローチした場合はどうなるでしょうか。

あや A>B>C

まい B>A>C

ゆめ C>B>A

今回はどこもダブってないのでマッチング終了です。(裏で話し合いでもしたのかな)

それぞれ第一希望の男性とマッチングしました。

あや と A

まい と B

ゆめ と C

ではそれぞれ総合点を出してみましょう。

女性陣は先ほど第一希望が全員かなったので総合点はとなります。

男性陣は

A まい>あや>ゆめ

B あや>ゆめ>まい

C まい>ゆめ>あや

 となったので総合点は2+3+2でとなります。

 

このアルゴリズム数理モデルからいえることは

 

男性側からアプローチした場合

男性陣の総合点4

女性陣の総合点5

男性に有利な結果になる。

 

女性側からアプローチした場合

男性陣の総合点7

女性陣の総合点3

女性に有利な結果になる。

 

この総合点が低い方が好ましい異性と付き合うことができたことになるので・・・

 

 

つまり、結論、

合コンではアプローチした方が有利になる!!!!!

 

 

この数理モデルのマッチングアルゴリズムは申し込む側、

つまりアプローチする側にとって最も最適なマッチングをもたらします。

 

また、安定的なマッチングです。

 

安定的なマッチングとは

「新たな組み合わせによって現在のマッチングが崩されないこと」を指します。

 

どういうことか

具体例でみてみましょう。

 

例えばくじ引きなどで

適当にマッチングされたとします。

 Aとあや、Bとゆめ、Cとまいが

カップリングしたとしましょう。

 

A まい>あや>ゆめ

B あや>ゆめ>まい

C まい>ゆめ>あや

 

男性側の総合点はなのでそれなりに希望にかなっているような気もします。

 

試しにAとまいの優先順位について調べてみると・・・

(現在のカップリング相手を青で示す。)

A まいあや>ゆめ

まい B>AC

となっており、お互いに今いる相手を捨てて

A-まいカップリングを作った方がお互いに優先順位の高い

相手とマッチングすることができます。

 

このように新たな組み合わせによって、現在のマッチングが崩される場合

そのマッチングは安定的なマッチングとは言えないのです。

 

つまり、安定的なマッチングとは

「新たな組み合わせによって、現在のマッチングが崩されないことになります。

 

合コンのモデルにおいて

男性側からアプローチした場合も

女性側からアプローチした場合も

必ず安定的なマッチングを実現しています。

 (今いる相手を捨ててこれ以上お互いに優先順位が高くならない状態ですね)

 

 

つまり、結論、

合コンではアプローチした方が有利になる!!!!!

(2回目)

 

 

この数理モデルは男女をそれぞれ、

新卒側が希望する部署と

部署が希望する人材

にも置き換えることができますよね。

 

また、このマッチングアルゴリズムは1対1のマッチングだけではなく

1対多のマッチングの状況でも適応できます。

 

このように数理モデルを作って考えることで客観的で

合理的な判断を下すことができるようになります。

 

私への数理モデル作成の依頼などはTwitterのDMにてお待ちしております。

 

今日も最後まで読んでいただきありがとうございました!

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエストも随時受付中です。

気軽にリプなりメッセなりください。

 

 

具体例でわかる!分散、標準偏差、偏差値の違い

具体例でわかる!分散、標準偏差、偏差値の違い

 

分散と標準偏差、そして偏差値の違いがわかりますか?

今回も具体例でわかりやすく説明しました!

 

前回の平均値などの話を理解していないとやや難しいので

よくわからん!って方はこちら↓を読むことをオススメします

statisticsworld.hatenadiary.com

平均値と中央値を理解したからどんな分布でもだいたいわかるぜ!

 

あまいぜ~あまいぜ~まだ重要な分散と標準偏差を理解してないぜ~

 

 

では具体的に見ていきましょう。

5人の英語のテストと数学のテストがあったとします。

それぞれの点数は

英語のテスト(40、50、60、70、80)

数学のテスト(50、55、60、65、70)

です。

どちらも平均値は60点で、中央値も60点です。

(平均、中央値わからない方は上に貼ってある記事を読んでいただければすぐに理解できると思います)

 

でも点数の散らばり具合は英語と数学で異なっていますよね?

 これらを数字で表したい!そこで出てくるのが分散です。

 

分散とは、簡単に言うと「データの散らばり具合」を表す値です。

データ、つまりここでいう点数がどれくらいバラついているのか?を数値化したものが分散になります!

 

分散の求め方は「平均からの差の二乗」の平均 です。

平均が2つ出てきてさっそく意味不明?

大丈夫です。

 

具体的に見てみましょう。

 

英語のテストの分散を求めてみます。

英語のテスト(40、50、60、70、80)

 

まず、英語のテストの平均は60点です。

これを

(40-60)

(50-60)

(60-60)

(70ー60)

(80-60)

各々の点数 ー 平均 とします

平均からの差ですね。

 

平均からの差をそれぞれ2乗します。

(40-60)^2    

(50-60)^2

(60-60)^2

(70ー60)^2

(80-60)^2

※^2は2乗しますって意味です。つまり、一番上でいえば(40-60)×(40-60)ってことです

(40-60)^2 =-20×-20=400

(50-60)^2 =-10×-10=100

(60-60)^2 =0×0=0

(70ー60)^2 =10×10=100

(80-60)^2 =20×20=400

 平均からの差の2乗の結果が出ました。

分散の求め方は平均からの差の二乗」の平均だったので

これらの平均を求めます。

つまり、(400+100+0+100+400)÷5=200

 

長いですけど、やっていることはめっちゃ簡単です。

(最後に簡単な計算方法教えます)

 

同じように数学のテストも計算してみましょう。

もちろん電卓を使ってOKですよ!

 数学のテスト(50、55、60、65、70)

 

数学のテストの平均も60点です。

これを 

平均からの差をそれぞれ2乗します。

(50-60)^2    

(55-60)^2

(60-60)^2

(65ー60)^2

(70-60)^2

これが

(50-60)^2 =-10×-10=100

(55-60)^2 =-5×-5=25

(60-60)^2 =0×0=0

(65ー60)^2 =5×5=25

(70-60)^2 =10×10=100

 平均からの差の2乗の結果が出ました。

これらの平均なので

つまり、(100+25+0+25+100)÷5=50

 つまり、数学のテストの分散は50です!

 

英語のテストは分散が200

数学のテストは分散が50

英語のテストの方が点数が散らばっていることがわかりましたね。

 

分散を求めるときに

平均からの差の2乗を使いましたよね?

なので、より実感に近くなるように√(ルート)を取ります。

電卓使ってください。

 

これが標準偏差になります!

つまり、標準偏差は分散を√したもの、平方根をとったものです。

 

英語の分散 200点

数学の分散   50点

なのでそれぞれ平方根を求めると

英語の標準偏差10√2なので約14点です。

数学の標準偏差5√2なので約7点です。

 

テストの平均点が60点だったのでより実感に近い値になったと思います!

数学の方が散らばり具合が小さいということになりますね。

 

 

 標準偏差も分散と同じくデータの散らばり度合いを表す値になります!

 

 

 

さて、ここで問題です!(デデドン!)

この数学と英語のテストででそれぞれ70点を取りました。

数学と英語、どちらの方がすごいでしょうか?

 

どちらも平均から10点多く得点しています。

これだけではどちらも平均からそこそこ上だからなぁ~くらいの感想しかでてこず

どちらがすごいか判断できませんよね?

ここで役に立つのがデータの散らばり度合いである分散と標準偏差なのです!

 

わかりやすく偏差値を求めたいと思います!

模試を受けたり、受験を経験されたことがある方なら必ず見たことがあるはずです。

こんなところにも統計が!!!

 

 

偏差値とは、全員の点数と自分の点数を比較して得られる値で、

点数のデータを正規分布に従うと仮定した上で、

平均が50、標準偏差が10=分散100となる様に標準化した値。

 

よくわからーーーん!!!

大丈夫です!

 

簡単に言えば

偏差値それぞれバラツキや平均が異なるテストの点数を同じような形に整えてうまいこと比較しよう!っていう値です。

 

仮にテストの点数が70点だったき

平均点が90点のテストのときと平均点が40点のときのテストではすごさが全く違いますよね?これをうまいこと標準化(同じような形に整えること)して比較しようってことです。

 

標準化については後日また詳しく書きますので

今はわけわからなくてOKです(後日がいつかとはいってない)

 

 

偏差値の求め方です!

(点数ー平均)÷ 標準偏差

これに10をかけて50を足したものが偏差値になります。

つまり、

{(点数ー平均)÷ 標準偏差  }×10+50

 これで偏差値が求められます。

 

 

さっきの問題だと

点数は70点でしたね。

英語と数学のテストの平均は60点。

英語の標準偏差10√2なので約14点です。

数学の標準偏差5√2なので約7点です。

 

これらをあてはめていきます。

まずは英語から。

{(70点ー平均の60点)÷10√2 }×10+50

=5√2+50=だいたい57くらいですね。

つまり英語の偏差値は57程度になります。

同じように数学も計算します。

 

{(70点ー平均の60点)÷5√2  }×10+50

 =10√2+50=だいたい64くらいですね

つまり数学の偏差値は64程度になります。

 

このように平均が全く同じテストで同じ得点を取ったとしても

標準偏差(点数のばらつき)が異なると偏差値が異なります。

 

英語が57で数学が64ということは

この人は数学の方が勉強ができる!

ということがわかります。

 

実は平均だけ、中央値だけではデータの特徴の一部しか表し切れていないのですね。

そこでデータのばらつきとして分散、標準偏差などを値を活用して

データの特徴をわかりやすく数値化しているのです。

 

前回説明した平均値、最頻値、中央値と合わせて

分散、標準偏差、偏差値を使ってよりデータの実態を明確にしてみてくださいね。

 

 

 え?簡単な分散の出し方?よく覚えていましたね

~TIPS~

簡単な分散の出し方

いろんなサイトにも書いてあるのでここでは簡単に。

英語のテスト(40、50、60、70、80)を例に計算します。

 それぞれの点数を2乗した平均ー平均の2乗

これで分散がでます

(40^2+50^2+60^2+70^2+80^2)÷5 - 60^2

=(1600+2500+3600+4900+6400)÷5 - 3600

=3800 - 3600 =200

大抵の場合はこのやり方で分散を出した方が圧倒的に早いです。

 

 

今日も最後まで見ていただきありがとうございました!

 

 

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエストも随時受付中です。

気軽にリプなりメッセなりください。

 

具体例でわかる!平均値と中央値と最頻値の違い

具体例でわかる!平均値と中央値と最頻値の違い

 

平均値と中央値、そして最頻値の違いがわかりますか?

今回は具体例でわかりやすく説明しました!

 

それぞれの値の特徴なども簡単にまとめました!

 

 

ここにある会社があります

社員は7名

それぞれの給与は

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

とします。

 

それぞれこの会社の給与の平均値、中央値、最頻値はいくつかを求めていきましょう!

まずは平均値から。

 

平均はすべての給与を足して人数で割ればいいので

500+400+500+300+500+700+2000=4900

4900÷7=700

 

ということでこの会社の平均給与は700万ということになりますね!

 

おいおいおい、ちょっと待ってくれよと。
データをよく見てくれよと。

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

 

平均700万って言ってる割に

700万以上の人がFとGの2人しかいないじゃないか!!!!

これは詐欺に等しいぞ!!!

 

そうなのです。

この平均値というのはとても便利な指標なのですが

今回のように「大きな外れ値(今回の場合はG)」のように

「極端に平均から大きい(または小さい)数字」

があると平均値が外れ値に引っ張られてしまうことがあるのです!!!

 

この会社のように人数が少なくG(おそらく社長)

たくさん給与を受け取っている場合などは

平均値がこの会社の給与をうまく反映している値とは言い難いのです。

 

そんな時に便利なのが中央値です!

中央値は小さい順に並べてちょうど真ん中の値のことを指します。

 データを小さい順に並べて・・・

人    給与(万)

D   300

B   400

A   500

C   500

E   500

F   700

G     2000

今回は7名なので真ん中=中央は4番目の人になります!

4番目の人はCの500なので

中央値は500万になります!

 

(もちろんAとCとEは同じ値なので並び替えて4番目がAかEでも大丈夫です。中央値が500という結果に変わりはありません)

 

今回は7名なので奇数なので真ん中がありますが偶数の時は真ん中の2つの平均をとればいいです。

例えば6名だったときは3番目の人と4番目の人の平均が中央値ということになります。

 

最後に最頻値です!

これは最も頻繁に出てくる値ということで

一番よく出てくる値のことを指します。

人    給与(万)

D   300

B   400

A   500

C   500

E   500

F   700

G     2000

300が1人、400が1人、500が3人、700が1人、2000が1人

ということは今回は3人の500がもっともよく出てきた値、

つまり最頻値は500万ということになります!

 

今回の会社の場合では

人    給与(万)

A   500

B   400

C   500

D   300

E   500

F   700

G     2000

平均値700、中央値500、最頻値500ということになりました!

 

簡単にまとめると

平均値とは、すべての数値を足して、数値の個数で割った値

中央値とは、小さい順に並べて中央に出てきた値

最頻値とは、最も頻繁に出てきた値ということになります。

 

では、少し複雑なグラフをおまけに見てみましょう。

平成21年の所得分布です。

f:id:statisticsworld:20190804181611g:plain

(出展:厚生労働省

https://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa09/2-2.html

 

このグラフを見ると

平均値は547万5千と書いてあり、中央値は427万と書いてありますね。

最頻値は最もよく出てくる値なので割合13.9%の200-300万の層ということになります!

 

このグラフも先ほどと同様、数は少ないものの収入が多い人たちに引っ張られて

中央値より平均値の方が大きくなっていますね。

全体の61.3%の人たちが平均値以下の所得ということになります。

 

この場合、より実態を表しているのは中央値かなという感じがしますね。

 

このように平均値、中央値、最頻値を分けて見ればそのグラフの実態が見えてきますね!

 

平均値以外にも中央値と最頻値、ぜひ使ってみてください。

 

 

今日も最後まで見ていただきありがとうございました!

 

 

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。