ガジェット通信

見たことのないものを見に行こう

「機械学習クラスタのベイズって何?」という人へ──まずは『ベイズの定理』を学んでみよう

DATE:
  • ガジェット通信を≫

「ベイズ」や「ベイジアン」を聞き流し続けているあなたへ

この記事では分かりやすく、ベイズ統計の基本中の基本である「ベイズの定理」の使い方について説明していきます。

実例で分かるベイズの定理 – 感染検査薬の実用性を測る

あなたは某大手製薬会社で、ある伝染病の検査薬開発に関わる研究開発社員だとしましょう。

検査薬は信頼性が命ですが、この種の製品には「2つの誤り」が定義されます。

感染している人に対し「陰性」の判定をしてしまう(擬陰性)
感染していない人に対し「陽性」の判定をしてしまう(擬陽性)

どちらも重大な誤りですが、流行をおさえるには「擬陰性」の確率をなるべく小さくすることが最も重要です。

ですので、「擬陰性」が呈される確率をテーマに、一つの問を設定してみましょう。

問:「20000人を対象にしたテストで、擬陰性の確率が0.05%を切ったら商品化」という基準を設けた。テストの結果から、どのように擬陰性が起こる確率が計算できるか?

まずここでは、2*2=4通りの「因果」の組があることに注意して下さいね。

原因
説明
結果
感染していた
なので
陽性が出た
感染していた
にも関わらず
陰性が出た
感染していなかった
にも関わらず
陽性が出た
感染していなかった
なので
陰性が出た

ここで「説明」というカラムは分かりやさのために加えており、

確率的には「原因」と「結果」の組を取り扱うに過ぎません。

そして、実験により手に入るリストは以下のようなものです。

陽性が出た人(12000人)の経過報告

事実
人数
割合
感染していた
11990人
99.916…%
感染していなかった
10人
0.083…%

陰性が出た人(8000人)の経過報告

事実
人数
割合
感染していた
5人
0.0625%
感染していなかった
7996人
99.9375%

さて、この検査薬は基準をクリアしているのでしょうか…?

因果の逆転 – 「結果から原因」のデータしかない!

悩ましいのは、データを見て「結果」の前に「原因」がある確率は分かりますが、

「原因」から「結果」が起こる確率が直接読み取れないことです。

必要なのは擬陰性の確率、つまり「感染していたにも関わらず陰性が出る」確率です。

この確率を求める方法は複数ありますが、一般のケースに拡張が容易なのはこれから説明する「ベイズの定理」です。

ベイズの定理、登場

ベイズの定理の基礎になるのは「条件付き確率」という概念です。ここからは数式と文章を組み合わせて説明をしていきます。

まずは下記の数式を眺めてみましょう。

  …(1)

  …(2)

これらの式はいくつかの要素からなっています。

 : 確率的に生じる出来事。事象と呼ばれる。「ある被験者が感染している」「ある被験者の検査で陽性が出る」など。

 : という事象が起こる確率。PはProbability(確率)の頭文字。

 : AとBが同時に起こるという事象。積事象と呼ばれる。

 : Bを前提にしたときの、Aが起こる確率。条件付き確率と呼ばれる。

まず、(1)式を言葉で説明するならば、以下のような内容になるでしょう。

AとBが同時に起こる確率は、「Bが起こる確率」に、「Bを前提とした時にAが起こる確率」をかければ分かる。

次に、(2)式を説明してみます。

AとBが同時に起こる確率は、「Aが起こる確率」に、「Aを前提とした時にBが起こる確率」を掛ければ分かる。

さて、ここからベイズの定理を導出してみましょう。

まず(1)式の両辺をP(B)で割って、条件付き確率 が左辺に来るよう左辺と右辺を入れ替えます。

  …(1)

から

  …(3)

(3)式に登場するは、(2)式を代入して書き換えることができます。

  …(2)

を代入すると

  …(4)

になります。

実はこの(4)式が「ベイズの定理」の式です。なぜ、この式が「定理」と呼ばれるほど重要なのでしょうか?

そのポイントは、「因果の逆転」にあります。

とか といった値は、「条件付き確率」と呼ぶのでした。(4)式の左辺と右辺では、条件付き確率のAとB…つまり「原因」と「結果」が入れ替わっているのがお分かりですか?

先の感染検査薬の例では、「結果」から「原因」が起こる確率(条件付き確率)は分かるが、肝心の「原因」から「結果」が起こる確率が分からない、ということが問題となりました。

必要なデータではなく、因果が逆のデータしか手に入れることができないのでしたね。

こんな時にベイズの定理が役に立ちます。

「結果から原因」の確率しか手に入らない時に、「原因から結果」の確率を求めるというのは、(4)式の代表的な使い方です。

この計算を実際にやってみましょう。

ベイズの定理を使ってみた

まずは事象を定義しましょう。

求めたい確率は「擬陰性」が起こる確率でした。条件付き確率の表記で言うと が知りたいのですね。

(注:縦棒の右側が前提です)

この事例にベイズの定理を表す(4)式を当てはめましょう。

  …(5)

左辺が擬陰性の起こる確率 で、右辺は3つの確率を使った計算式になっています。それぞれの意味を確認しましょう。

これらは全て「直接求められるデータ」です。計算してみましょう。

(陰性の8000人中、感染していたのは5人)

(全被験者20000人中、陰性だったのは8000人)

(全被験者20000人中、感染していたのは11995人)

これらの値を(5)式に代入します。

これで擬陰性の起こる確率はおよそ0.0417%と分かり、0.05%という基準をクリアしていることが分かりましたね。

ここで算出された という条件付き確率を、ベイズの定理の文脈では「事後確率」と呼びます。

まとめ

ある因果関係が起こる確率を知りたいとき、データの性質によっては「逆の因果関係」が起こる確率しか手に入らない
そのような時でも、ベイズの定理を使えば、求めたい確率を計算できることがある

ベイズの定理の応用例 – ベイジアンネットワーク

ベイズの定理をフルに応用できる枠組みとして、「ベイジアンネットワーク」という数理モデルがあります。

後編では、このモデルの有用性と、医療・マーケティング・カスタマーサポートといった現場で実際に使われている事例を紹介していきます。

カテゴリー : デジタル・IT タグ :
CodeIQ MAGAZINEの記事一覧をみる ▶
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

TOP