サンプルサイズ1で予測する先が読めていない一部の人々

覚え書き

06.01.201809.17.2020

先日，何かの拍子に「Stat Spotting」を検索したところ，日本語ページではここがトップに上がってきて驚愕しました．ジョエル・ベスト（2011）『あやしい統計フィールドガイド』，白楊社では，スタット・スポッティングとカタカナ表記であることが，本家を差し置いてしまった要因と思われますが，そもそも日本語では馴染みがない言葉だからということも理由の一つにあるのでしょう．

このブログでもカテゴリーに登録したもののなかなか記事が書けないStat Spottingですが，実はネタはゴロゴロしてはいるのですが，それらを題材にして記事を書くのはなかなか難しい面があります．それはなぜかというと，基本的にクリティカルな考察に基づくので，誰か（たとえそれが法人であっても）を批判することに繋がってしまうからです．しかもこちらは後出しジャンケンで有利ですから卑怯な真似はしたくない．いえ，別に戦っているわけではないんですけど．
そいうわけでオリジナルの論文にも目をとおしたネタがいくつもあるのですが，掲載を控えております．そんな中，最近目にしたのがこちらの記事です．
大西英男議員の事務所から受けた、受動喫煙記事への抗議に対する回答最初にいっておきますが，この記事を批判するわけではないです，これをきっかけとしてあることを言いたいだけです．この記事はダイヤモンド社の書籍オンラインの連載の最新のもので，いつかここでも紹介した中牧先生と津山先生との共著である『「原因と結果」の経済学』がテーマです．お読みになっていただければわかりますように，受動喫煙について衆議院議員とやりとりした経緯が書かれています．著者が受動喫煙規制推進の立場で，議員がそれに待ったをかけている側です．疑問4のところに出てくる「「自分の周辺エピソード」で政策を形成する前時代的な一部の国会議員たち」という表現はうまいですね．わたしなら「サンプルサイズ1で予測する先が読めていない一部の国会議員たち」とでもいいましょうか．
受動喫煙防止に関する議論を深めることは公益に資するというのは全くそのとおりと賛同します．とはいえ，このブログではその議論には踏み込みまず，「疑問1 受動喫煙規制で売上が下がった飲食店の意見は無視か」について言及します．この論点では，受動喫煙対策を推し進めると飲食店の売り上げが減るのではないかという仮説の検証がポイントになっています．実際，この議員の言うように売り上げが減ったお店もあったのでしょうか．そういうクレームには「そんな小サンプルのデータからでは何もいえません．」と返せばいいのですが，真面目にIARCによる系統的レビューの結果を紹介してくださっています．
更に，別の先生がこのレビューにタバコ産業との関連性という因子を導入して視覚化したグラフも掲載されています．このグラフがStat Spottingの双眼鏡の中に入ってきました．このグラフによれば，タバコ産業に研究助成を受けている研究結果ではタバコ産業に都合の良い結論が多いのは間違いないようです．この手の研究が食品業界に多いのはよく知られています．事実，アメリカに住んでいたときに＊＊は健康に良いという類のときにとんでもニュースを度々目にしました．そういうニュースのソースはその食品業界の企業がスポンサーとなっていたり，あるいは自社の研究であることも批判されていました．とはいえ，このこととは別にして，アメリカの企業には社会に貢献するという意志が感じられるのは，素直に素晴らしいと思います．（もちろん，データの捏造はしていないということが前提です．）統計学でも有名なジョージア工科大学には当地の有力企業であるコカ・コーラがスポンサーになっている講座があると聞きました．だからといってコカ・コーラが健康に良い（胃閉塞の治療に使われているとどこかで読んだ記憶があります）などという研究と関係があるのかは不明ですけど．
念のために言っておきますが，わたしはタバコが苦手です．その昔新幹線に喫煙車両があった頃には喫煙車両の隣の禁煙車両も避けていたくらいです．（今でもわざわざ喫煙室から最も離れた席に座ります．）このため，乗れる号車が少なかったので苦労しました．こんなことを申しますのも，これからこのグラフに疑問を呈するので，喫煙者と思われるのが心外だからです．この系統的レビューのグラフの解釈に違和感を感じています．わたしには，このグラフから「質と中立性の高い研究のほとんどが、受動喫煙規制が売上に与える負の影響はないと結論付けている」とは言えないように思えます．タバコ産業の助成を受けた研究であってもデータの捏造まではしていないとすれば，このグラフから言えるのは「研究結果はスポンサーとの関連性という因子の影響を大きく受ける」ということに過ぎないのではないでしょうか．WHOの研究所で「厳密で科学的な方法」と認定された研究ですから，タバコ産業の関与があったとしても質的には高い研究であるはずですし，中立性という点ではタバコの健康被害を懸念する研究者の研究も中立ではないでしょう．（良い方向とはいえどもある意味でバイアスしているので．）
このようにグラフにしたことで視覚的に訴える力は強力なので，このような見せ方をするならば，系統的レビューの統計手法に焦点を当てたメタ分析にまで突っ込むべきと思います．オリジナルのIARCによる系統的レビューがどちらかというとナラティブなレビューに留まっているのはなぜか．例えば「有意性」という言葉は一箇所しか出てきません．このグラフだけでは，一次研究の統計手法にまで立ち入って新たにメタ分析をしたものなのか不明で，この記事ではそこには触れられていないので，おやっと思いました．
ここからはこの記事を離れてあくまでも一般論ですのでご注意ください．そもそも「厳密で科学的な方法」により導出された結果にどうしてこのような大きな違いがあるのでしょうか．系統的レビューやメタ分析の対象となる一次研究ではその多くに仮説検定が使われています．仮説検定はもちろん科学的なデータ分析の手法ですが，メタ分析の素材としては不向きなのです．というのも，ご存知のように有意水準の設定によって結果はいかようにも変えることができるからです．（誤解のないように言っておきますと，実験後に有意水準を変えるのはもちろんご法度ですが，実験前に予め意図的により厳しくあるいは緩く有意水準を決めるのは合法です．）有意水準であれば，まだ0.05というしきたりを踏襲することで結果に普遍性をもたらすことはできるかもしれません．特定の研究分野で有意水準が慣習的に定まっているケースとして，素粒子物理では有意水準は3×10^－7といいます．ノーベル賞候補の研究だと騒ぎになって，実は間違いでしたでは済まされないからなのでしょうか．
しかしながら，有意水準はまだしもサンプルサイズはすべての研究で揃えるわけにはいかないでしょう．例えば，t検定ではt値の分母は標準誤差ですからサンプルサイズのルートに反比例します．サンプルサイズを大きくすれば有意性が出しやすくなるといわれる所以です．とはいえ，こういうことをもっともらしくいう人は実務を知らないのかもしれません．実務ではサンプルサイズを大きくすると様々なノイズが混入してきやすくなり，それらが有意差を見えにくくするという影響もあるので，サンプルが大きければどんな有意性でも出せてしまうというのは言い過ぎと思います．平均の回帰という統計現象も考慮すべきという説もあります．技術者としては，サンプルサイズが少ないと有意差が出せないことのほうを危惧すべきです．タバコの例でいうならば，むしろ資金の少ないであろう中立の研究で必要な検定力に足るサンプルサイズがあったのかを確認すべきです．
技術者の場合，その検定結果を使って意思決定するのは自分ですから，有意水準にせよサンプルサイズにせよ二種類の過誤を自ら引き受けて決めればいいのですが，社会科学における検定ではその覚悟は研究の立場によって変わってきます．例えば，受動喫煙の健康被害を食いとどめるという志の高い研究者であれば，（有意差を示したくない研究では）ベータリスクが大きくなることを覚悟してアルファリスクを小さくするでしょう．結果としてタバコ産業に厳しい結果になるはずです．タバコ産業に支援を受けている研究者であれば，もしかしたらベータリスクが大きいことのほうを気にするかもしれません．このように厳密に科学的な手法であっても，仮説検定にはそこにある程度の分析者の意思（決意）がはいってくることは避けられないので，それらの総意をメタ分析として抽出するのはよろしくないのです．
社会科学的な実験では，サンプル抽出においても非サンプリングエラーを皆無にするには極めて困難です．（調査を覆面でやったりするとか，低減する手段はいくつもありますが，そうなると回収率が悪くなるとかの問題も出てきます．）このような実験デザインにも研究者の熱意というパラメーターが入ってきます．例えば，その熱意が人々の健康のために向くか，スポンサーのご機嫌とりに向くのかによって検定の結果が変わってしまう．ですが，どちらも厳密に科学的な手法による結論には違いありません．
何が言いたいかというと，系統的レビューにおいては，すべてのデータを統合して結論を導くのが基本だと思うので，タバコ産業との関係のありなしで研究を層別化するのは，趣旨にはずれているのではないか，ましてやそれらをはずれ値として除外して結論を出すのは，わざわざ系統的レビューをする意味がないように思います．このことは一次研究に検定が採用されていなくても言えることと考えます．更に，一次研究が仮説検定であって，それらのメタ分析をするならば，それぞれの検定手法の詳細（サンプルサイズや有意水準）が明らかになって，それが異なっている場合は何らかの調整が必要です．あるいは，近年では効果量をベースにしたメタ分析を実施することが一般的になっています．連載記事にはこのグラフの引用先が書かれているので，行ってみると「厚生労働科学研究成果データベース」の「たばこ規制枠組み条約を踏まえたたばこ対策に係る総合的研究」がソースらしいのですが，この報告書はお役所特有の分割されたPDFになっているので，パッと見では探せませんでした．
というわけでこれからこの報告書を読んでこのグラフの背景について調べてみます．とはいえ，時間がかかりそうなのでこの続きはまた来週．それでは．

追記：引用元にちゃんと書かれていました．「分担研究報告書2-2」にこの図があるようです．これから読みます．