過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

K値について思うこと

JMP 統計学

一昨日に開催されたJMPの製薬業界向けWebセミナー「非臨床研究者のための統計解析入門」を聴講しました.私にとって馴染みの薄い分野なので,あまり使わない機能を紹介して頂くのは勉強になります.そもそも非臨床研究というのが聞き慣れない言葉だったのですが,話を聞くと動物などを使った医薬品の薬効や安全性の検証試験である前臨床試験のことなんですね.最近では非臨床試験と呼ばれていることは知りませんでした.非というのは良い響きではないのですが,おそらく英語のNon-clinicalを直訳したのでしょうか.工業分野の実験計画とは大きく異なって,試験の手順や分析方法,信頼性検証に至るまでがガイドラインでガチガチに固められているので,覚えることが多く大変そうです.人命が関与しているので仕方ないこととは言え,プロセスが決まった開発は自分に向かないなといつも思います.

とはいえ,信頼性検証試験などとも関係が深い分野なので,仕事をしながらのながら聴講させていただきました.そこで「発展的なモデル>曲線のあてはめ」を紹介されていたのですが,ふと目に止まったのが,「シグモイド曲線」の中にGompertz曲線があったことです.こんなところにあったんですね.完璧に見落としてました.Gompertz曲線といえば,昨今巷ではコロナの新規感染者数の予測モデルとして有名になりました.ちなみに参考文献はこちら.あ,これアーカイブですからご注意ください. 予測モデルというよりはデータにあてはめたらフィッティングが良かったということなんですが,この発見を予測に使えると考えてしまう人もいるようです.一週間の累計を取っていたりと,このデータ特有の状況は勘案されていますが,大阪モデルで有名なK値もGompertz曲線のフィッティングで導出できるから根っこは同じです.ちなみに,K値というのは大阪大学核物理研究センターの中野先生が考案されたコロナ感染の状況を示す指標です.その定義は,先生の公開されているスライドによれば,週あたりの感染者数増加率として直近一週間の感染者数を総感染者数で割った値です.数式で書けば,a=直近一週間の新規感染者数の合計,b=一週間前の総感染者数として,K=(a-b)/a となります. JMPで描いたK値の経時変化を描いてみるとこのようになります.Days=157は7月15日です.

確かに,感染状況の指標として使えるように見えます.冒頭の図は累積感染者数のグラフにK値を4つに順序尺度化して「重ね合わせ」してみました.感染拡大期の紫→緑から,収束期に青→赤となり,そして今また赤になっているという解釈が可能です.K値は,過去一週間の感染者数の増加率をその日の感染者数で規格化した数値ですから,K=0.01ならば,直近の一週間で総感染者数が1%増加したことを意味します.K値が感染状況の指標となるのはあたりまえのことかもしれません.このように,感染状況の指標としては何らかの意味付けができるK値ですが,一部のメディアで基本再生産数の代わりにK値が予測に使えると報道されています.これには疑義ありです.部屋の気温は温度計で分かりますが,これから寒くなるのか暑くなるのかは,時間や季節など他の情報に加えて法則性の知見が蓄えられていなければ予測不能です.

確かに,Gompertz曲線は信頼度成長曲線とも呼ぶくらいですから,予測にも使えることは間違いありません.だからこそ,JMPのコマンドにも実装されているわけですし,システムに残っているバグの検出率を予測して,システムの品質向上と納期や人的リソースの確保の見積もりなどに,実際に使われています.ですが,この場合でも予測するのは早くても開発の中盤以降になるのが普通です.

もちろん,タイミングが遅いほど予測精度は高くなります.開発初期に予測しても,全く使い物になりません.怖いのは予測ができてしまうことです.最悪なのは,甘い見通しを立ててそれを信じた結果,プロジェクトが立ち行かなくなってしまう事態に陥ることです.よく知られたWeibull曲線による製品の寿命予測とも状況は同じです.サンプルをほとんど破壊しないデータで寿命予測するケースがありますが,その結果は全く役に立ちません.加速試験はもちろんですが,少なくともサンプルの80%は破壊するまでデータをとらないと,やはり市場不良を引き起こす危険があります.

そこでK値ですが,やはり状況は同じと思います.過去の感染者数に対してあてはめるには問題ありませんし,現在の状況の指標としても(他の指標と組み合わせる前提で)使えることは間違いないと思います.おそらく,予測もごく短期間(数日)程度であれば,現状の外挿として意味はあるかもしれません.ですが,報道にあったようにピークアウトのような長期的な予測には使うべきではないと考えます.経済と感染対策との間にあって,現状を楽観視できるK値による予測は,経済に重きを置く考えの人々の論拠になっています.けれども,信頼性予測のように,ここでも状況を楽観視してそれが事態を悪くしていく危険があります. 事実,この数日の感染拡大でK値のフィッティングがずれて来ています.

驚いたのは,このズレを別の理由によって説明していることです.具体的には,複数のK値の予測曲線が重なっていて,それらを層別化すればK値の予測はうまくいっているとの説明です.これは真実かもしれません.ですが,この説明は天動説の学者の説明と同じです.観測結果が精密になるにつれて,天動説では説明しきれない惑星の動きが彼らを悩ませました.そこで持ち出したのが周転円です.更にその言い訳はプトレマイオスのエカントへと精緻化していきます.正直すごい頭脳と思いますが,それらは地動説を真実とすることであっさりと消え去りました.

誤解のないように申し添えておきますと,私は経済とよりも感染防止に重きを置くべきと言っているわけではありません.ただ,K値にこだわり続けていると本質を見逃し,対策が遅れることは危惧しています.K値について考えることで,改めてモデリングではオーバーフィッテイングは怖いなと感じた次第です.『統計的問題解決入門』のP153(第1刷)にも書いた,宿屋の屋根に止まったカラスに紛らわされてはダメです.誤差(純誤差)を本質と分離したモデルこそ真に役立つモデルではないでしょうか.

ではでは.

統計的問題解決研究所

コメント