データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える(Unboundedly)

access_time create folder政治・経済・社会
データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える

今回はKRSKさんのブログ『Unboundedly』からご寄稿いただきました。

データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える(Unboundedly)

今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。

あまりに有名なパラドックスであるため日本語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。

例えばシンプソンのパラドックスを交絡*1 の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。

*1:「#ニセの関連が生じるパターン1:交絡 (【点と矢印で因果関係を考える】データからニセモノの関連が生じるパターンとその対策まとめ:因果ダイアグラム(DAG)によるバイアスの視覚的整理)」2017年03月22日 『Unboundedly』
https://www.krsk-phs.com/entry/structural_bias#%E3%83%8B%E3%82%BB%E3%81%AE%E9%96%A2%E9%80%A3%E3%81%8C%E7%94%9F%E3%81%98%E3%82%8B%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3%EF%BC%91%E4%BA%A4%E7%B5%A1

アニメシンプソンズ

目次
1. そもそもシンプソンのパラドックスとは?
2.シンプソンのパラドックスの歴史的背景
3.関連の逆転はなぜ”パラドックス”なのか
4.パラドックスは「交絡」の問題?
5.Simpsonが本当に伝えていたのは・・・
6.関連資料

そもそもシンプソンのパラドックスとは?

シンプソンのパラドックスを説明する際によく使われる例が次のようなものです。

ある病気を予防する効果が期待される新薬Aが開発され、従来の治療法(コントロール群)と効果の違いを比較したいとしましょう。ランダム化比較試験*2 ができると一番いいのですが、ここでは次の表にある観察データしか手に入らなかったとします。

*2:「#ランダム化という魔法(データから因果関係をどう導く?:統計的因果推論の基本、「反事実モデル」をゼロから)」2018年08月05日 『Unboundedly』
https://www.krsk-phs.com/entry/counterfactual_assumptions#%E3%83%A9%E3%83%B3%E3%83%80%E3%83%A0%E5%8C%96%E3%81%A8%E3%81%84%E3%81%86%E9%AD%94%E6%B3%95

ex:観察データ

まず女性だけに注目して、新薬Aと従来の治療を比較してみます。治療の効果があった人の割合は、

新薬A → 37/(3+37) = 37/40 = 0.925

従来の治療 → 19/(1+19) = 19/20 = 0.95

つまり新薬Aを飲んだ人の92.5%に効果があったのに対して、従来の治療を受けた人では95%に効果があったということです。直感的に、「女性では従来の治療のほうが良さそう」と思わせるデータです。

つぎに男性だけに注目して、同じような比較を行います。

新薬A → 12/(8+12) = 12/20 = 0.6

従来の治療 → 28/(12+28) = 28/40 = 0.7

新薬Aを飲んだ人の60%に効果があったのに対して、従来の治療を受けた人では70%に効果があったということです。やはり、「男性においても従来の治療のほうが良さそう」と思わせるデータです。

では一番下の行、男女合わせたデータを見てみましょう。

新薬A → 49/(11+49) = 49/60 ≒ 0.82

従来の治療 → 47/(13+47) = 47/60 ≒ 0.78

男女合わせた集団全体でみると、新薬Aを飲んだ人の82%に効果があったのに対して、従来の治療を受けた人では78%にしか効果がありません。つまり、「従来の治療より新薬Aのほうが効果が良さそう」と思わせるデータです。

さて、ここで一つの疑問が出ると思います。

男性でも女性でも効かないが、”人間”(男女合計)には効果が高い新薬Aなるものが存在しうるのでしょうか?※1

男性でも女性で効かないなら、男女関係なく効かないので集団全体で見ても効果がないと考えるのが自然な発想です。このように、集団全体を見た時とその小集団に注目した時で一見矛盾したような結論がデータから導かれてしまうことを指して、「シンプソンのパラドックス」と呼びます。

シンプソンのパラドックスの歴史的背景

シンプソンのパラドックスを知るうえで重要な論文が二つあります。

一つ目はパラドクスの名前にあるSimpsonが1951年に発表した論文。

Simpson, Edward H. “The interpretation of interaction in contingency tables.” Journal of the Royal Statistical Society. Series B (Methodological) (1951): 238-241.

1 2 3 4次のページ
access_time create folder政治・経済・社会

寄稿

ガジェット通信はデジタルガジェット情報・ライフスタイル提案等を提供するウェブ媒体です。シリアスさを排除し、ジョークを交えながら肩の力を抜いて楽しんでいただけるやわらかニュースサイトを目指しています。 こちらのアカウントから記事の寄稿依頼をさせていただいております。

TwitterID: getnews_kiko

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちら
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

スマホゲーム タラコたたき
ガジェ通制作ライブ
→ガジェ通制作生放送一覧