世界一のわかりやすさを目指す

世界一暇なデータサイエンティストが簡単に統計や数学を解説するらしいよ

「直感を裏切る統計」~あなたのその判断間違ってますよ~

「直感を裏切る統計」~あなたのその判断間違ってますよ~

 

今回は会話形式です。

 

 

~~とあるラーメン店、商品開発部~~

 

部長「zack氏の影響でわが社もデータを活用してテストを始めてみたぞ」

 

社員「はい!新作ラーメンの味のテストを行いました!結果をご覧ください!」

 

部長「今回はわが社の社運をかけたビックプロジェクトだ。決して失敗できないからな。どれどれ・・・」

 

 

新作ラーメンをそれぞれ2000名ずつ

こってり味とあっさり味を調査

 

 

       満足  不満   合計

こってり  1160   840   2000

あっさり  1240   760   2000

合計    2400    1600   4000

 

部長「ふむ。ということはあまり差はないが

 

強いて言えばあっさりの方がよさそうだな!

 

人数も、それぞれ2000人調査したし十分だな!」

 

社員「はい!そうですね!これでヒット間違いなしです!」

 

 

 

その時ーーーーー

 

部長に電流走るーーーーー

 

カイジの画像省略)

 

違和感・・・・

 

何とも言えない違和感・・・・

 

わが社ののラーメン、実はこってりに自信があった・・・

 

それなのに何故あっさりの方が・・・

 

・・・・

 

 

部長「念のためzack氏に依頼を頼んでみよう」

 

社員「そんな必要ありますか?データを見ても、あっさりが優勢ですよ?

 

どんなに優れたデータサイエンティストでもこの事実は変わらないと思いますが」

 

部長「確かにそうかもしれん。だが、今回のプロジェクトは失敗するわけにはいかない。保険はかけておこう。」

 

 

 

~~後日~~

 

zack「これは、こってりの方が優勢ですね」

 

社員「バカな!!!そんなはずがない!!!」

 

部長「まぁ、まず話を聞いてみようじゃないか」

 

zack「こちらをご覧ください。男女別に満足度調査をわけたものです」

 

女性の調査結果

       満足  不満   合計

こってり   380     20   400

あっさり    1220   380    1600

合計      1600     400    2000

 

男性の調査結果

       満足  不満   合計

こってり    780     820   1600

あっさり        20   380     400

合計        800    1200   2000

 

社員「ただ男女別に分けただけじゃないか!合計したら結果は一緒だろ?

まったく、データサインティスとも大したことないな」

 

部長「いや、、、待て社員くん!これは!!!」

 

zack「お気づきになりましたか。」

 

部長「よく見てみると、

女性はこってりの満足の割合は95%程度、       

あっさり75%程度、

男性はこってりの満足度が50%程度、

あっさり5%しかない!!!

 

女性の調査結果

       満足  不満   合計  満足度割合

こってり   380     20   400   95.00%

あっさり    1220   380    1600  76.25%

合計      1600     400    2000

 

男性の調査結果

       満足  不満   合計  満足度割合

こってり    780     820   1600   48.75%

あっさり        20   380     400   5.00%

合計        800    1200   2000

 

 

 

社員「な、なんてことだ!!!なぜこのようなことが・・・」

 

社員「男女のどちらの表からもあっさりよりこってりの方が満足度が高い!!!

合算されたで表ではこってりよりあっさりの方が

満足度が高いという逆の結果になっている!!!」

 

ラーメンデータ

       満足  不満   合計

こってり  1160   840   2000

あっさり  1240   760   2000

合計    2400    1600   4000

 

zack「これは男女それぞれの注文数の違いによるものであり、その影響がでたんですね。

合算されたデータを見ただけでは誤った判断を下すところでしたね」

 

部長「zackくん、君のおかげでビックプロジェクトの判断ミスを未然に防げたよ。間違った判断をしていたら大変な損害が出ていたところだった。」

   

zack「恐縮です。また何かありましたら、お声がけください。」

 

 

~~~(全部妄想の例えお話です)~~~~

 

「直感を裏切る統計」と称して

今回はデータ分析における有名なパラドックス

シンプソンのパラドックスをご紹介させていただきました。

 

「全く同じデータでも、

データの見方によって結論が異なる場合がある」

 

ただデータを集計し判断するだけでは誤った判断を下す可能性があります。

様々な角度から検証を重ねてみることが大事ってことですね。

(だからデータサイエンティストには仮説設定やデータの見方など知識や教養が求められます)

 

 

今日も最後まで読んでいただきありがとうございました!

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエスト、

仕事の依頼(相談60分20000)なども随時受付中です。

(お仕事の依頼はDMでお願いします)

気軽にリプなりメッセなりください。

 

いつもご覧いただきありがとうございました!