あの病気にかかる確率は? ベイズの定理

あの病気にかかる確率は? ベイズの定理

罹患率 0.01%の病気があります。この病気の検査方法は、実際に病気に罹患している人が、陽性と判定される確率が98%、逆に罹患していない人は、陰性と判定される確率が80%です。あなたがこの病気の検査を受けて、陽性と判定を受けました。罹患している確率はいくらでしょうか?

98%と答えた人アウトです。w

こんにちは、MLエンジニアのshunです。

今回はベイズの定理を使って、実際の罹患率を推定してみます。個人的には、ベイズの定理が好きです。何故なら、シンプルなのに、人間の思考のようなプロセスで計算するからです。

まずはベイズの定理を、理解するための前提を理解しましょう。

確率を理解する

Xという事象が起こりうる確率を、P(X)と表します。この時のXを確率変数と言います。

例えば、サイコロで1の目が出る確率は1/6。X=1(1の目が出る確率は?)だとすると。

次に、条件付き確率

Xという条件の元でYが起こる確率です。

どちらが条件かというと|の右側Xです。Xが原因でYが結果です。

条件付き確率は、以下の計算で求めることができます。

例えば、Xをサイコロを1回投げて出目が偶数(つまり出目が 2,4,6)が起きた元で、Yを4以上(つまり出目が 4,5,6)が起きる確率を求める場合。

右辺の分子のP(X,Y)というのは、XかつYは同時に起きる確率です。例えば、サイコロを振って偶数かつ4以上が出る確率です。

P(X,Y)は2/6です。

分母P(X)は1/2。

計算すると、2/6 / 1/2 = 2/3

確率は2/3ですね。

ベン図にすると一目瞭然です。

確率とは全体の中で、どれぐらい割合を占めるかということです。


全事象をUとすると、Xの中で、XかつYが起きる確率と言えます。ベン図を見ると重なるAのところですね。

これはX,Yを入れ替えても式は成り立ちます。

さらに、この式は変形できます。分子のP(Y,X)は、①の式の分母を払うと以下のようになります。

これを確率の乗法定理と言います。

P(X,Y)を②の分子に代入すると。

これがベイズの定理です。

条件付き確率を変形しただけですね。

これは解釈がおもろくて、条件付き確率は原因(X)があって結果(Y)なのだが、ベイズの定理は結果(Y)から原因(X)を探る確率になっている。

なんだか分かりにくいと思うので、冒頭の問題を計算してみましょう。四則演算のみで解けるので、皆さんもチャレンジしてみてください。

計算

罹患率のパターンをまとめます。

ちなみに陽性なのに、誤って病気だと判定してまうことを、偽陰性と言います。逆に陰性なのに、陽性と判断してしまうことを、偽陽性と言います。

今回の問題は、陽性だと診断された場合、本当に罹患している確率は?考慮しないといけないのは、もし病気にかかってなくても、20%の確率で陽性だと判断してしまうことです。

さて、今回のポイントです。

通常は因果関係は、以下の順序です。

病気にかかっているから、陽性だと判断される。

病気にかかってないから、陰性だと判断される。

病気→検査結果。

今回は因果関係が逆になっているのに気をつけください。

陽性だと判断された。はたして病気にかかっているか?

つまり、検査結果があっての病気。検査結果→病気。

これがベイズの定理の特徴です。つまり観測値(結果)から、原因を探るということです。

今回のケースをベイズの定理に当てはめてみます。

P(罹患|陽性) = P(陽性|罹患)P(罹患) / P(陽性)

左辺を見ると、陽性(結果)→原因(罹患)を推測する結果になってますね。

ベイズに定理に使う確率をまとめましょう。ぞれぞれの値はもう出てますね。

①実際に罹患している人が検査で陽性となる確率: P(陽性|罹患) 0.98

②病気に罹患している確率: P(罹患)  0.0001(0.01%)

③陽性になる確率:0.0001 * 0.98 + 0.9999 * 0.20 = 0.200078  (0.9999は(1-0.0001)、つまり罹患しない確率です。)

各値をベイズの定理に当てはめて計算すると、

P(罹患|陽性) = 0.98 (①)* 0.0001 (②)/ 0.200078 (③)= 0.00048981

答えは

約 0.05%

これが罹患している確率です。低いですね。。

なんでこんなに低いかというと、そもそも罹患する確率が低いからです。本当に罹患率が低い病気だと、陽性だと診断されても正しいとは限りらないのです。

ここで重要なのは再検査することです。

ベイズの定理まとめ

罹患する確率である0.01% は、何も情報がない時に知っている確率であり、これを事前確率という。

そこに「陽性でした」とういう「情報」が入ってきた。

そうすると確率が変わった。

0.01% →  情報(更新) →  0.05%

情報が入って更新された確率を事後確率と言います。

0.05%→事後確率

つまりベイズの定理は、確率更新のプロセスなのです。

観測された事実を元に、確率を計算していきます。これは非常に人間の思考プロセスに近いのです。

データ(観測値)からルールを作り出すという意味で、機械学習アルゴリムとしても有名です。スパムメールを分類したり、文書分類なんかに使ったりします。

エンジョイワークスでは、バックエンドエンジニアを募集しております。空き家問題を、自分のスキルで解決したいエンジニアは、是非ご応募ください!

リクルート情報はこちら!
https://enjoyworks.jp/recruit

一覧へ戻る