世界一暇なデータサイエンティスト

世界一暇なデータサイエンティストが簡単に統計や数学を解説するらしいよ

具体例でわかる!ベイズ推定とベイズの定理


具体例でわかる!ベイズ推定とベイズの定理

 

 なんか高校生の時に習ったような・・・?

ベイズの定理!

これを使うとベイズ推定ができます!

実はこれは多くのビジネスなどで実際に使われているめちゃくちゃ便利な代物だったんです!

(ナ、ナンダッテー)

 

マイクロソフトが飛躍的に成長を遂げたのもベイズ

グーグルの検索エンジンの自動翻訳システムでもベイズ

そして身近な迷惑メールのシステムにもベイズ

実はずっと身近にいたけどよく知らないベイズ

 

今回も具体例でわかりやすく説明しました!

 

 

まずベイズ推定とは一体なんぞや?

みんな大好きwikipediaを見てみましょう。

ベイズ推定ベイズすいてい、: Bayesian inference)とは、ベイズ確率の考え方に基づき、観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、確率的な意味で推論することを指す。

観測事象から定したい事柄(原因事象)を確率的な意味で推論すること。

 

うーん?わからんぞ

 

もうちょっと簡単な具体例に直してみましょう。

 

送られてきたメールの中に「出会い系」とあったら(観測された事実=観測事象

迷惑メールの確率が跳ね上がる(推定したい事柄=原因事象

ってことです!

 

メールが送られてきたときに迷惑メールと普通のメールを分けたいですよね?

 

 

つまり、このメールが迷惑メールなのか、そうでない普通のメールなのかを推定したいんです!(推定したい事柄=原因事象

 

それを判断するためにメールに含まれている文章(観測された事実=観測事象)で

事前にシステムに判断させて分けちゃいましょう!って話です。

 

(たまに間違えて迷惑メールに普通のメールが入っちゃったりしますが、これはベイズ推定に基づいて判断されているので確率上間違えちゃったってことです。)

 

では具体的な数字を使ってどうやって判断しているのか見ていきましょう!

 

先ほどの例を使っていきますね。

 

今までの調査ではランダムに選んだメールの80%が普通のメール20%が迷惑メールだとわかっています。

 

調査によると、「出会い系」というワードを普通のメールが含む確率は20%だが

迷惑メールの場合は80%も含まれているということがわかりました。

ランダムに選んだメールが

この「出会い系」というワードを含んでいた時

迷惑メールである確率はいくつになるか?ということです。

 

普通に考えたら送られてきたメールは全体の

80%が普通のメール

20%が迷惑メールだから

迷惑メールである確率は20%でしょ!?

 

違います(ドヤ顔)

 

今回は事前に観測された「出会い系」というワードがメールの中に含まれています。

この場合なんと迷惑メールである確率が・・・50%にまで跳ね上がるのです!!!

 

具体的な計算式を図と一緒に見てみましょう。

f:id:statisticsworld:20191231220527j:plain

 

 まず全体のメールのうち迷惑メールが20%(黄色)、普通のメールが80%(青色)

です。

 

全体のメールの割合の20%にあたる

迷惑メールのうち「出会い系」というワードが含まれいている確率が80%なので

20%×80%=16%が黄色で示された

迷惑メールであり、かつ「出会い系」というワードが含まれているメールです。

 

同じように全体の80%を占める

普通のメール「出会い系」というワードが含まれいる確率が20%なので

80%×20%=16%です。

 

ここでポイントになるのは

すでにこのランダムに選ばれたメールには「出会い系」という文字が含まれいるメールである!

ということです!

 

つまり全体のメールから迷惑メールか普通のメールかを判断するのではなく

f:id:statisticsworld:20191231222555p:plain

「出会い系」というワードが確認されたこの赤枠の中で確率を考えるということです。

 

なぜかというと

このランダムに選ばれたメールはすでに「出会い系」という単語を含んでいるからです!

 

 

他の「出会い系」を含んでいない確率を考える必要がないのです!

 

なので

 

このランダムに選ばれたメールが「出会い系」というワードが含まれていた場合

 

迷惑のメールの確率16%

普通であるメールの確率16%

合計32%のうち

 

半分が迷惑メールで、半分が普通のメール

(それぞれ16%ずつですからね)

つまり迷惑メールである確率が50%ということになるのです!

 

実際に今やった計算を数式にすると

(0.2×0.8)÷{(0.2×0.8)+(0.8×0.2)}

 「出会い系」が含まれた迷惑メールの確率 ÷ 「出会い系」が含まれた迷惑メールの確率「出会い系」が含まれた普通のメールの確率

ってことです。

 

実はこれがベイズの定理です。

 

ベイズの定理は色々変形して普段は使用しますが

数学に慣れていない人は

こうして事前にわかったこと(観測事象)から知りたいこと(原因事象)がわかる

便利なものって理解で大丈夫です!

 

 

今回の場合であれば

「出会い系」という単語が含まれていたかどうか(事前に分かったこと=観測事象)から

迷惑メールか普通のメール知りたいこと=原因事象)がわかる便利なものだと思っておいてください。

 

普通に判断したら20%の確率の迷惑メール50%にまで跳ね上がりましたね。

 

もっと多くの迷惑メールに多く含まれている単語を組み合わせていけば

迷惑メールである確率が上がり普通のメールである確率は下がります

 

今私たちが使っている迷惑メールの判別システムは

このベイズが基本となって使われています。

 

 

ではどのようにビジネスで応用できるのか?

例えば

あるECサイトでとある顧客がる行動」をとったとき(事前にわかったこと=観測事象)その商品を購入する確率(知りたいこと=原因事象)がわかったりします。

 

これはつまりある行動を顧客がとったとき購入意思がある確率が跳ね上がるということに他なりません。

ここから先はもう言わなくてもわかりますよね。

 

このようにベイズは非常に多くの企業で活用、応用が利く素晴らしいものなのです!

ベイズももちろん統計の仲間です。

 

もし興味がわいたら勉強してみると業績向上に大きく貢献するかもしれませんよ?

 

もちろん私に相談いただいてもかまいません。

 

今日も最後まで見ていただきありがとうございました!

 

 

 

質問や気になる点、もしくは間違いなどありましたら

Twitter:@zack32319636

までご連絡ください。

書いてほしい記事のリクエストも随時受付中です。

気軽にリプなりメッセなりください。