過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

シロかクロか

統計学
しばらく前に書いたグラフの記事「JMPのグラフは地味なのか?」では,陸上女子の100mの世界記録を題材にとりました.そのとき,たまたま陸上女子のキャスター・セメンヤさんの記事を読んでいたというだけの理由だったのですが,いろいろデータを弄っていてジョイナーのドーピング疑惑に気付き,これは面白いかもと思い執筆中の書籍でデータ視覚化のネタとして取り上げることにしました.乞うご期待ください.


競技中の薬物使用は古代ギリシャにもありましたし,ライバルの闇討ちまでしたそうですから,勝つために手段を選ばないアスリートは昔からいたようです.自ら知らずしてドーピングされて組織の犠牲となった選手もいるので勝利に固執するのはアスリートの責任だけではないのですけどね.
近年では世界中でアンチ・ドーピングが厳しく取り締まられているので,検査精度も向上してきてはいますが,それ以上にドーピングの手口が巧妙化してきているのが実情です.ヒト成長ホルモンや自己血輸血など人間が自然に生成する成分は,検出できても違反を判定するには何らかの合理的な線引きが必要となります.選手生体パスポート検査という手法では選手個人の主に血液検査値の個人の推移をモニターします.その変動が上下限値からはみ出ていなければ異常なしという,選手の血液を工程管理するような手法です.このように,偽陽性(早とちり)や偽陰性(見逃し)を低減する様々な工夫はされていますが,工程検査と同じく100%正しく判定できる保証はありません.

いずれにせよ二値判定なので,何かしらの線引きが必要です.セメンヤさんの話でも,ホルモンの値で資格を判別するならば,生まれながらに背の高い選手もバスケットボールの試合での参加を制限すべきというのはその通りにも思えますね.そもそもスポーツなんてのは技巧も努力もありますけど,それよりも生まれながらのDNAの性能を競っているようなところもあるわけです.線引きは哲学的にも難しい問題ですが,一つの解決は線を引かないことです.例えば,球技はともかく陸上などの個人記録を競う種目ではホルモン量などで規格化してしまえばいいのです.ですから実測でなく,標準化した記録で順位が決まります.見ていても全く面白くないですけど.

1984年のロサンゼルスオリンピックの女子3000mファイナルで起きたゾーラ・バッドとの接触転倒事故で有名なメアリー・デッカーという選手がいます.トラックで一際目立った金髪で人気のあった彼女ですが,1996年のアトランタオリンピックでのドーピング違反で処分を受けて,それにより実質的に選手生命を立たれました.実はこれは私がセミナーでよくやるネタで冒頭の図もそのときに使っているものです.このときの検査の偽陽性率は1%だったということですが,仮に偽陰性率を50%だとして,このときの国際陸上競技連盟の裁定は正しかったかを考えてみようというのが問題です.

ここで重要なのが何%の選手がドーピングをしているかという事前確率で,WADA(世界ドーピング防止機構)認定の分析機関での実績によればおよそ1%です.サンプリングは完全なランダムでなく,勝者は必ず検査されるので事前確率は1%よりは下回るかもしれません.この条件で検査的中率はベイズの定理を使って簡単に計算できますが,計算結果を見るよりも冒頭のような絵に描いた方が理解しやすいかもしれませんので,これを使って説明します.まず選手10000人を考えると,ドーピングの事前確率は1%なのでそのうち100人がドーピングしていることになります.この100人を検査すれば偽陰性率は50%ですから,本当にクロと検出されるのは50人のみで50人は見逃されてしまいます.一方,ドーピングしていない9900人に対しては偽陽性率1%ですから,99人が冤罪でクロになってしまいます.このときの検査的中率は50/(50+99) ですから約33%にしかなりません.一方で,正解率は9851/10000をを計算して約99%です.


正解率99%なら優秀な検査だと思うかもしれませんが,3割しか当たらない検査という言い方も間違いではありません.検査や判定の性能評価に複数の指標があって,しかもこのように3倍も異なる場合もあり得るのです.意思決定にあたってはどのような定義に基づく性能であるかを確認して,混乱が生じないようにしてください.

それではまた来週.もしかしたらこの続きを書くかもしれません.
統計的問題解決研究所

コメント