体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

「機械学習クラスタのベイズって何?」という人へ──まずは『ベイズの定理』を学んでみよう

「ベイズ」や「ベイジアン」を聞き流し続けているあなたへ

この記事では分かりやすく、ベイズ統計の基本中の基本である「ベイズの定理」の使い方について説明していきます。

実例で分かるベイズの定理 – 感染検査薬の実用性を測る

あなたは某大手製薬会社で、ある伝染病の検査薬開発に関わる研究開発社員だとしましょう。

検査薬は信頼性が命ですが、この種の製品には「2つの誤り」が定義されます。

感染している人に対し「陰性」の判定をしてしまう(擬陰性)
感染していない人に対し「陽性」の判定をしてしまう(擬陽性)

どちらも重大な誤りですが、流行をおさえるには「擬陰性」の確率をなるべく小さくすることが最も重要です。

ですので、「擬陰性」が呈される確率をテーマに、一つの問を設定してみましょう。

問:「20000人を対象にしたテストで、擬陰性の確率が0.05%を切ったら商品化」という基準を設けた。テストの結果から、どのように擬陰性が起こる確率が計算できるか?

まずここでは、2*2=4通りの「因果」の組があることに注意して下さいね。

原因
説明
結果
感染していた
なので
陽性が出た
感染していた
にも関わらず
陰性が出た
感染していなかった
にも関わらず
陽性が出た
感染していなかった
なので
陰性が出た

ここで「説明」というカラムは分かりやさのために加えており、

確率的には「原因」と「結果」の組を取り扱うに過ぎません。

そして、実験により手に入るリストは以下のようなものです。

陽性が出た人(12000人)の経過報告

事実
人数
割合
感染していた
11990人
99.916…%
感染していなかった
10人
0.083…%

陰性が出た人(8000人)の経過報告

事実
人数
割合
感染していた
5人
0.0625%
感染していなかった
7996人
99.9375%

さて、この検査薬は基準をクリアしているのでしょうか…?

因果の逆転 – 「結果から原因」のデータしかない!

悩ましいのは、データを見て「結果」の前に「原因」がある確率は分かりますが、

「原因」から「結果」が起こる確率が直接読み取れないことです。

必要なのは擬陰性の確率、つまり「感染していたにも関わらず陰性が出る」確率です。

この確率を求める方法は複数ありますが、一般のケースに拡張が容易なのはこれから説明する「ベイズの定理」です。

ベイズの定理、登場

ベイズの定理の基礎になるのは「条件付き確率」という概念です。ここからは数式と文章を組み合わせて説明をしていきます。

まずは下記の数式を眺めてみましょう。

P(A cap B) = P(A mid B)P(B)  …(1) P(A cap B) = P(B mid A)P(A)  …(2)

これらの式はいくつかの要素からなっています。

A,B : 確率的に生じる出来事。事象と呼ばれる。「ある被験者が感染している」「ある被験者の検査で陽性が出る」など。 P(A) : A という事象が起こる確率。PはProbability(確率)の頭文字。 A cap B : AとBが同時に起こるという事象。積事象と呼ばれる。 P(A mid B) : Bを前提にしたときの、Aが起こる確率。条件付き確率と呼ばれる。

まず、(1)式を言葉で説明するならば、以下のような内容になるでしょう。

AとBが同時に起こる確率は、「Bが起こる確率」に、「Bを前提とした時にAが起こる確率」をかければ分かる。

次に、(2)式を説明してみます。

AとBが同時に起こる確率は、「Aが起こる確率」に、「Aを前提とした時にBが起こる確率」を掛ければ分かる。

さて、ここからベイズの定理を導出してみましょう。

まず(1)式の両辺をP(B)で割って、条件付き確率P(A mid B) が左辺に来るよう左辺と右辺を入れ替えます。
1 2 3次のページ
CodeIQ MAGAZINEの記事一覧をみる
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。