
罹患率 0.01%の病気があります。この病気の検査方法は、実際に病気に罹患している人が、陽性と判定される確率が98%、逆に罹患していない人は、陰性と判定される確率が80%です。あなたがこの病気の検査を受けて、陽性と判定を受けました。罹患している確率はいくらでしょうか?
98%と答えた人アウトです。w
こんにちは、MLエンジニアのshunです。
今回はベイズの定理を使って、実際の罹患率を推定してみます。個人的には、ベイズの定理が好きです。何故なら、シンプルなのに、人間の思考のようなプロセスで計算するからです。
まずはベイズの定理を、理解するための前提を理解しましょう。
確率を理解する
Xという事象が起こりうる確率を、P(X)と表します。この時のXを確率変数と言います。

例えば、サイコロで1の目が出る確率は1/6。X=1(1の目が出る確率は?)だとすると。

次に、条件付き確率。

Xという条件の元でYが起こる確率です。
どちらが条件かというと|の右側Xです。Xが原因でYが結果です。
条件付き確率は、以下の計算で求めることができます。

例えば、Xをサイコロを1回投げて出目が偶数(つまり出目が 2,4,6)が起きた元で、Yを4以上(つまり出目が 4,5,6)が起きる確率を求める場合。
右辺の分子のP(X,Y)というのは、XかつYは同時に起きる確率です。例えば、サイコロを振って偶数かつ4以上が出る確率です。
P(X,Y)は2/6です。
分母P(X)は1/2。
計算すると、2/6 / 1/2 = 2/3
確率は2/3ですね。
ベン図にすると一目瞭然です。

確率とは全体の中で、どれぐらい割合を占めるかということです。

全事象をUとすると、Xの中で、XかつYが起きる確率と言えます。ベン図を見ると重なるAのところですね。
これはX,Yを入れ替えても式は成り立ちます。

さらに、この式は変形できます。分子のP(Y,X)は、①の式の分母を払うと以下のようになります。
これを確率の乗法定理と言います。

P(X,Y)を②の分子に代入すると。

これがベイズの定理です。
条件付き確率を変形しただけですね。
これは解釈がおもろくて、条件付き確率は原因(X)があって結果(Y)なのだが、ベイズの定理は結果(Y)から原因(X)を探る確率になっている。
なんだか分かりにくいと思うので、冒頭の問題を計算してみましょう。四則演算のみで解けるので、皆さんもチャレンジしてみてください。
計算
罹患率のパターンをまとめます。

ちなみに陽性なのに、誤って病気だと判定してまうことを、偽陰性と言います。逆に陰性なのに、陽性と判断してしまうことを、偽陽性と言います。

今回の問題は、陽性だと診断された場合、本当に罹患している確率は?考慮しないといけないのは、もし病気にかかってなくても、20%の確率で陽性だと判断してしまうことです。
さて、今回のポイントです。
通常は因果関係は、以下の順序です。
病気にかかっているから、陽性だと判断される。
病気にかかってないから、陰性だと判断される。
病気→検査結果。
今回は因果関係が逆になっているのに気をつけください。
陽性だと判断された。はたして病気にかかっているか?
つまり、検査結果があっての病気。検査結果→病気。
これがベイズの定理の特徴です。つまり観測値(結果)から、原因を探るということです。
今回のケースをベイズの定理に当てはめてみます。
P(罹患|陽性) = P(陽性|罹患)P(罹患) / P(陽性)
左辺を見ると、陽性(結果)→原因(罹患)を推測する結果になってますね。
ベイズに定理に使う確率をまとめましょう。ぞれぞれの値はもう出てますね。
①実際に罹患している人が検査で陽性となる確率: P(陽性|罹患) 0.98
②病気に罹患している確率: P(罹患) 0.0001(0.01%)
③陽性になる確率:0.0001 * 0.98 + 0.9999 * 0.20 = 0.200078 (0.9999は(1-0.0001)、つまり罹患しない確率です。)
各値をベイズの定理に当てはめて計算すると、
P(罹患|陽性) = 0.98 (①)* 0.0001 (②)/ 0.200078 (③)= 0.00048981
答えは
約 0.05%
これが罹患している確率です。低いですね。。
なんでこんなに低いかというと、そもそも罹患する確率が低いからです。本当に罹患率が低い病気だと、陽性だと診断されても正しいとは限りらないのです。
ここで重要なのは再検査することです。
ベイズの定理まとめ
罹患する確率である0.01% は、何も情報がない時に知っている確率であり、これを事前確率という。
そこに「陽性でした」とういう「情報」が入ってきた。
そうすると確率が変わった。
0.01% → 情報(更新) → 0.05%
情報が入って更新された確率を事後確率と言います。
0.05%→事後確率
つまりベイズの定理は、確率更新のプロセスなのです。
観測された事実を元に、確率を計算していきます。これは非常に人間の思考プロセスに近いのです。
データ(観測値)からルールを作り出すという意味で、機械学習アルゴリムとしても有名です。スパムメールを分類したり、文書分類なんかに使ったりします。
エンジョイワークスでは、バックエンドエンジニアを募集しております。空き家問題を、自分のスキルで解決したいエンジニアは、是非ご応募ください!
リクルート情報はこちら!
https://enjoyworks.jp/recruit