過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

アオサとかキャベツとか

JMP統計学

 コロナ流行の初期に,感染防止に有効とされる食品がメディアに取り上げられました.覚えてますか?私の記憶によれば,納豆とかアオサとかがありました.アオサは某大学が公式に発表したものの,その研究のスポンサーがアオサのサプリを販売している会社だったことも問題視され,大学側が取り下げたはずです.一番問題だったのは,インフルエンザウィルスを使った実験結果でヒトコロナウィルスに対する増殖抑制効果を議論したことでしょうか.私のような素人でも乱暴と思いましたが,大学側の言い訳では,「ヒトコロナウィルスを含む各種ウィルスで効果があったから,新型コロナウィルスにも効くんじゃね.」としか言ってないのに,勝手に「新型コロナウィルスに効果があった」と曲解されてしまったとのことです.苦しい言い訳です.


捏造ではないと思いますし,騙すつもりもなかったのでしょう.ただ,人の弱みにつけ込むことになってしまったという結果だけを見れば,真性の詐欺と変わりないように思います.そもそも,あのタイミングで発表すれば,この研究結果を参照する形で良い広告が打てます.出張で宿泊したときなど,早朝のTVショッピング番組を見ることがあるのですが.あの枠のほとんどが健康食品か美容関連の商品です.これらの番組では,ナントカ大学の研究によれば,この**が**に効くことが証明されています,などというカットが必ず入ってます.おそらく,最初からそれに使うことを目的とした研究もあるのではないでしょうか.

フードファディズムという特定の食品に健康との関連性があると信じ込んでしまう認知バイアスがあります.面白いのは健康に良いというバイアスと良くないというバイアスとがあることです.後者の有名どころでは「グルテン・フリー ダイエット」でしょう.いわゆるベジタリアンもこの範疇かと.前者の例は,枚挙にいとまがありません.コロナ関連だけでも,アオサや納豆の他にもいろいろありましたね.当時は中国から帰国したインド人に感染者がいなかったことから,カレーが効果あるのではないかとか,岩手県に感染者がいなかったので,わんこそばがいいのではないかとか冗談も,そうとわかっていれば楽しかったものです.普段はフードファディズムなど寄せ付けないリテラシーを備えた人でも,何らかのパニック状態では簡単に騙されてしまいます.最近は食品だけに留まらず,この手の怪しい情報に振り回される大衆心理をインフォデミックなどと呼んでいるようですが,特定の用語ができてしまうほど,世界中で見られる一般的な現象なのでしょう.もちろんその背後には,従来は一部の人のものだったインターネットによる情報の拡散が誰でも気軽にできるようになったことにあります.

コロナだけでなく311のときにもこの現象はやはり食品で多く観察できました.緊急事態宣言の頃はそもそも経済活動が停止してしまったので.下火になっていましたが,最近またコロナ予防に効く食品の記事を目にすることが多くなったように感じます.そのほとんどが,何らかの研究結果に基づくものではあるのですが,その研究を検証する姿勢がそもそもありません.メタノールがコロナ感染予防に効くとのデマで800人もの人が亡くなっているという事実を考えると危険なものを感じます.食品だから実害はないだろうという甘えもあるのだとは思いますが,白インゲンの食中毒事件も記憶に新しいところです.それに例のバナナダイエットのときのように特定の食品の購入が困難になるのは困ったことです.

白インゲンならスーパーから消えても個人的には困りません.きゅうりはなくてもいいかなと言うところですが,キャベツは困ります.それというのも「コロナ感染症、キャベツときゅうりで死亡リスク低下との指摘」という記事が出ていたからです.下記に引用します.

キャベツを食べる量が1日1g増えると死亡リスクが13.6%下がった。きゅうりを食べた場合は15.7%も低下する可能性があるという。

オリジナルソースの著者は,WHO傘下の世界呼吸器疾病連盟元会長であるとWHOと関連付けて,仏モンペリエ大学医学部名誉教授という肩書とともにちゃんと権威付けもされて紹介されています.論文が参照されているわりには,リンクが貼られていないのは対象読者から仕方ないのかもしれませんが,そもそもライターは原著を読んでいないのではないかと疑いたくなります.

原著はこちらです.Association between consumption of vegetables and COVID-19 mortality at a country level in Europe

定番のmedRxivですね.いつも楽しく拝見させていただいています.記事ではmedRxivを世界的な医学論文公開サイトと紹介していますが,一番肝心なプレプレスということが抜け落ちています.査読前の論文は,査読に落ちれば単なる自由研究です.いや,それどころではなく間違っている可能性がある研究とも言えます.(査読に通ったからといって間違っていないとは言えませんが.)その段階の研究を一般読者を対象にして記事を書くのは大変危険です.それはどんなことでも記事にできてしまうからです.例えば,Moon Hoaxと呼ばれる有名なアポロ計画が捏造だったと主張する陰謀論があります.それを統計的に証明する研究結果をプレプレスすることは可能です.従って,それを記事にすることもできるわけです.プレプレスの目的は,研究成果の先行性を示すことにあるわけですから,最新の情報という意味では報道サイドにとって貴重なソースであることは間違いありません.中に正しい研究が埋まっているのも事実です.ですが,少なくとも一般人向けの報道ではプレプレスをソースにすべきでないと思います.それというのも,数理統計学の論文と違って,この類の疫学的な論文では,一般人にも結論だけは理解できてしまうからです.しかも,この記事のように間違った解釈,おそらく意図的に間違っているのでしょう,で読者を誘導することはいかがなものでしょう.

この記事の解釈が間違っていることは,原著を読めばはっきりわかります.まず第一に,研究の手法が,欧州各国を対象に調査をしたところ,としか書かれていませんが,アブストラクトにははっきり書かれています.それによれば,欧州食品安全機関(EFSA)のデータベースの各国の野菜の消費量(アブラナ科野菜,ホウレンソウ,キュウリ,ズッキーニ,レタス,トマトなど)に加えてEuroStatの国内総生産(GDP),人口密度,64歳以上の人々の割合などの各種データを合わせて,各国のCOVID-19による死亡率を説明することを試みたようです.要するに実験したわけではなく,データベースからダウンロードしたデータをモデリングした研究だったわけです.

この手の論文のお決まりとして,Discussionのlimitationのところにこうあります.

(本研究で示された)関連性は因果関係を意味するものではなく,食物消費パターンは他の未知の要因の代理なのかもしれない.

要するに擬似相関かもよということです.それなら何でこんなことしたのかというと,意訳するとこんな感じでしょうか.

パンデミック分布の指標が更に研究されるまで,各国の地理的な(コロナ死亡率)の変動は説明できないけど,この研究は,国の単位でコロナ死亡率と食物消費を関連付る最初の試みとしては面白いよね?

著者としては,安全弁を設けたのでしょうが,そのような意歳を一切無視して,「きゅうりを食べるとコロナでの死亡率が15.7%低下する」などと報道されては著者もたまったものではないですね.しかも,某クリニックの院長先生とか栄養管理士のエンドースメントまでついています.最も,このことはこの方達には責任はないのかもしれません.この論文をどう思いますか?なぜこんな結果になるのでしょうか?などと聞かれれば真面目な方だったら理屈を考えますよね.その返事をそのまま,このようなこの研究を肯定するコメントとして報道側が掲載した可能性もあります.もしかしたら,複数の人にコメントを求めて,そのような記事にしやすい回答だけを載せたのかもしれません.

もちろん,このようなわかりやすい例であれば,直感的におかしいと気づく人が多いと思います.ですが,そうではない人が世の中の多数なのだということが問題です.例のイソジン騒動でも明らかになりました.プレプレスの論文は一般向けには報道すべきではないのはもちろんですが,それ以上に問題なのは,報道側のバイアスです.報道の引き出し効果とでも言いましょうか.「都道府県別新型コロナウイルス感染者数マップ」を公開してくださているジャッグジャパン株式会社の大濱﨑さんのTweetによれば,某社から緊急事態宣言の解除が第二波の原因であることを解説してほしいと依頼されたそうです.そこで「そうではない」ことをデータをつけてレポートを送ったところ,何の返事も来なくなったとのこと.報道以前に礼儀にも欠けるとこのような話は他にもいろいろと聞きます.

さて,この論文では,過剰分散を考慮して死亡率をモデル化するために,死亡率をquasi-Poisson回帰モデルで分析しています.計数データのモデリングは,JMPでは一般化線形モデルで『分布』を「Poisson」にすることで実施できますが,データが過分散である場合は,『リンク関数』の下にある「過分散に基づく検定と信頼区間」にチェックを入れるとモデルに過分散パラメータを含めるとができます.こうすることで「モデル全体の検定」レポートにある「適合度統計量」にそのカイ二乗値を自由度で割った値の「過分散」という列が出てきます.この値が過分散パラメータで,残差逸脱度と残差自由度との関係性の指標で,大きければ過分散であることを意味します.

Poisson分布と二項分布では過分散データに注意することが教科書には書いてあります.over-dispersion検定をすることを推奨している文献もあります.その結果として,データが実際に過分散だった場合に,その計数データをいかにモデリングするか?という問題に直面することになります.この場合によく使われるのが,擬似尤度を導入して,分布に分散の調整のためのパラメータを加えた,負の二項分布やquasi-Poisson分布を指定することです.後者は日本では擬似ポアソン分布とも呼ばれますが,勉強不足で自分にはあまり使い分けも違いもわかってないです.確か久保先生の青本に書かれていたと記憶しているので,詳細が知りたい方は参照されてください.自分の解釈としては,要するにデータのばらつき具合の推定値による誤差の調整のようなもんでしょうか.このモデリングはJMP Proならば『分布』のところに「Negative Binomial」というのがあって,それで実施可能と覚えているのですが,うろ覚えです.もしかしたら違うソフトかも.

そもそもポアソン分布にとって,過分散は本質的なのかもしれません.母数はλだけで,期待値と分散がともにλだということを思い出してください.平均値とともに分散が大きくなるので等分散性を満たさないということは,何かの回数を記録したカウントデータににとって自然なのでしょう.因みに,指定した分布のもとで線形化するための変換関数が「リンク関数」で,ポアソン分布の場合は対数変換とするのが通常です.

過分散のモデルに与える影響は,誤差が小さく推定されるので,有意差が出やすくなり,反対にその補正の結果,有意差が見逃されやすくなると考えればいいと思います.この論文では安全側に倒して擬似ポアソン分布回帰モデリングを実施したのでしょう.本当はこのデータを元に結果をJMPで再現したかったのですが.あいにくすべてのデータが公開されていないようですし,JMP Proが手元にないので...そのかわりと言っては何なんですが,この論文の Table3をグラフビルダーで素早くグラフにする練習をしてみました.その結果が冒頭のグラフです.確かに,きゅうりとキャベツの効果が目立ちますが,カリフラワーはどうなんだよ,とかいろいろ気づくことがあります.

このグラフの作成にはPDF の読み込みから初めて,3分かかりませんでした.JMP15のPDFからテーブルを読み込む機能は英語だとうまくいくことが多いですね.medRxivにはデータが添付されていて,統計分析までフォローできる論文も多いので.JMP初心者には良い練習材料になります.もちろん,その研究を批判的に読んで.統計リテラシーを磨くことも忘れないようにしたいですね.

それでは時間となりましたので,これにて.

統計的問題解決研究所

コメント