過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

統計リテラシーと抗体検査

JMPJMPではじめるデータサイエンス統計学覚え書き

今日読んだニュースによれば(今日のニュースではありませんけど),インテルが7nm半導体の技術開発が予定より6カ月遅れていることを明らかにしたことで,株価が1割近く下がりました.Mac搭載のCPUとして毎日お世話になっていますけど,つい先日もAppleがCPUをインテル製から内製へと移行していく方針が発表されたばかりです.自社の製品開発のロードマップを他社の開発の遅れに妨げられないようにすることが目的と言われています.おそらく,インテルも今後は外部への生産委託を拡大する方向へ舵を取っていくことになると思いますが,同じ業界に長いこといて,かつての同僚のアメリカ人なども働いているので他人事のようには思えません.



7nmといえば,コロナウィルスのサイズが100nmですから,いかに微細なパターンということかお分かりと思います.このような高度なプロセス技術をもはや一社で抱えるのは難しいのかもしれません.それは,現代では設計者と大工とが分業するのがあたりまえの,家作りにも似ています.いつだったか「アテ」の話をブログに書いた記憶があるのですが,昔は大工の棟梁が山に行って材料の選定からしていたわけです.もちろん,そういう家は特別です.大量製品を前提とした工業分野では,理想なのだということもわかってます.でもですね,中国やアジア諸国と互角に渡り合うには,そこに巧の精神というか技が必須だと思うのですよ.大量生産の工業製品であっても,少なくともそれらをより強くタフに,そしてより高性能にしていくための鍵が上流から下流までを貫く巧の技です.

その巧の技を阻害するものの一つが分業化です.ですから,同じ会社組織に臆していてもそこに十分なコミュニケーションが図られていなければ意味がありません.インテルでも設計と製造とが分業化してしまい,同じ会社であってもデータの受け渡し程度の関係になっているのかもしれません.このことは,他の会社組織を見ても想像に難くないです.もちろん,分業化には経営効率の観点からは多大なメリットもあるので,いかに部門間のコミュニケーションをとっていくかが巧の技にとって大切になります.そのベースになるのが統計学であり,それ以前の統計リテラシーと考えています.これについは,そのうち書きます.

というわけで,近頃は統計リテラシーの講座なんかをいろいろ開いているのですが,今回のコロナ騒動で多くのネタが拾えるので,その整理に追われている毎日です.例えば,治療薬として期待されている「アビガン」の臨床研究についての藤田医科大学の報告が報道されました.明確な有効性は確認できなかった,即ち有意性なしとの結果について,サンプルサイズを大きくすれば有効性が出てくるかもしれないとのことです.まだ,実際の報告を読んでいないので,メディアの報道だけから判断するのは危険ですが,『JMPではじめるデータサイエンス』の読者の方であれば,事前に検定力をもとにサンプルサイズを決めてるべきであることお分かりと思います.望み通りの結果が得られないからといってサンプルサイズを増やすのは,特に今回のように人命に関わる重要な研究では口に出すのさえ憚られることです.間違った検定で間違った判断を下すことの影響ははかり知れません.研究チームには統計の専門家もいるはずなので,おそらくメディアの誤解によるものと思ってますが,正直驚きました.この件については,後日検証してみたいと思っています.


他の報道でも,首を捻ることがありました.横須賀市が無作為に抽出した市民の抗体検査をしたのですが,その結果を受けて,市長が「人口に比例させれば、4000人が感染したことがあるということになり、非常に高い数字だと受け止めている。自分も感染している可能性があるという意識を持って行動をとってもらいたい」と発言しています.自分も感染している可能性があるという意識を持って行動するのはもちろん,その通りですが,統計リテラシーでこの結果を捉えると,いくつかの問題が見えてきます.

1.まず第一に無作為抽出したのは2000人でそのうち964人が応じた結果だということです.このため,本人しかわからない不安な履歴がある人が応じている可能性があります.そこにバイアスがかかり陽性率が上がっていることが考えられます.本当の無作為ではないということです.
2.別の報道によれば,こんなことも書かれています.「厚生労働省の抗体検査では2種類の試薬で両方陽性だった人を抗体保有者とみなしているのに対し、横須賀市は1種類だけの陽性判定でも保有者にカウントしている。」ご存知のように,抗体検査ではIgMという現在感染していることを示す抗体と,IgGという過去に感染した可能性を示す抗体を二値判定します.横須賀市では,おそらくIgGのみでも陽性であればカウントしたのでしょう.発症後二週間程度経たないとIgGは上昇しないのでIgM陽性だけをカウントするのなら理解できますが,IgGのみ陽性者をカウントするのは大いに疑問です.無症状のままに治癒した人も網にかけたいという気持ちはわかりますが,単なる風邪でも陽性になってしまうことがあるからです.もともと精度が低い抗体検査は発症後の治癒の状況を確認する目的で使うべきです.二つの抗体の判定結果を踏まえ,臨床所見や症状から最終的に判定する必要があります.検査手法に大いに疑義ありといったところでしょうか.ダメなデータをもとに正い判断は降せません.こんなデータならない方がマシです,というのは言い過ぎでしょうか.
3.報道によれば,「上地克明市長は記者会見で「統計上は市民4000人が抗体を保有していることになり、非常に多い」と強調した。」とありますが,統計上はという言葉は安易に使うべきではないと思います.冒頭のJMPのレポートを見てください.今回の横須賀市の結果をもとに,「信頼区間」を示してみました.この結果によれば,「横須賀市の人口39万人のうち抗体保有者は,信頼度を95%とするとおよそ2200人から7400人の間にあると推定できる.」と言うべきであることがわかります.確かに21日時点での,感染者累計69人よりは多いです.ですが,69人は有症状の感染者数です.比較すべきなのは無症状の感染者数なのですが,もちろんそれは不明です.


因みに,この信頼度を99%にすれば信頼区間は1833人から8869人となりますし,更に,10人のうち半分が偽陽性だとすると,下側は677人になります.非常に多いと判断するのではなく,こんなもんだくらいに受け止めればいいのでしょうが,このために440万円かける価値があるのかは検討すべきですね.


この分析をして気づいたのですが,レポートの下に,「注:スコア信頼区間を使って計算」とありますよね.こういうところがJMPらしいですね.せっかくなので少し解説しておきますと,統計学の教科書では母比率の信頼区間を次式で習います.ここでnをサンプルサイズとして,pとπはそれぞれ標本比率と母比率で,zは所望のアルファに対応したz値です.95%なら1.96ですね.覚えてますか?
ですが,この式はサンプルサイズが十分大きくて正規分布が二項分布の良い近似となる場合でないと正確ではありません.今回のようにnやpが小さいときは全く使えません.そこで2標本のカイ二乗検定いわゆるピアソンの検定から,求めた信頼区間がスコア信頼区間です.式をここに書こうかと思ったのですが,結構複雑なので,興味ある方は一般的に呼ばれているウィルソンの信頼区間で調べてみてください.もちろん,JMPを使えばそんな式は存在すら忘れても良いのですね.

通常の統計ソフトならば,nやpが小さいときは,ウィルソンの信頼区間を使うということを知っている必要があるますが,JMPだとそこを良きに計らってくれます.とはいえ,これが正規分布の母比率の信頼区間とは違うことを知らなければ,計算結果が異なることに戸惑います.そこで注が書いてあるわけです.英語版では「conputed using score intervals」と書かれているので直訳です.日本のユーザーには,スコア信頼区間ではなくウィルソンの信頼区間とした方が親切だと思うのですが,いかがでしょう.他にもWelchのt検定なんかも,統計学を前提としない間口の広さはJMPらしいですが,日本語の教科書で勉強した人には不親切ですね.その割には,「Fit Y by X」が「二変量の関係」と妙にこなれた日本語になっていたりするのが不思議なところです.聞いたところでは,芳賀先生がそのように命名されたとも聞いていいます.変な用語もありますが,まあJMPは外人だと思って付き合っていくのがいいのでしょうね.


それではまた.
統計的問題解決研究所

コメント