なぜ系統的レビューに仮説検定は向かないのか？

覚え書き

06.08.201809.17.2020

先週の続きです．といっても，あの報告書には例の系統的レビューの詳細には触れられていないことが判明したので，続きは書けません．一般的に仮説検定の結果を系統的レビューに含めるのはやってはいけないとされています．もしも，ナラティブな研究をレビューしたのであったとしても，せいぜい表として提示するくらいにとどめておくべきで，それらを棒グラフ（即ち，量的な比例尺度の数値としての視覚化）にするのはやりすぎのような気もします．あの報告書からはそのへんがどうなのかは読めません．厚生労働省が背後についている研究会ですから，統計に詳しくない人々を黙らさせるために，あのような権威に裏打ちされたデータを提示したのかもしれませんが，いずれにせよ（禁煙派だけに）誤解を招くグラフなのは残念です．レビュー対象の論文を読んでいないのでこれ以上の言及は避けます．

ところで，系統的レビューの対象として仮説検定による研究が向いていないという理由は，例えば，こんなことを考えてみればわかります．タバコ産業関連以外の研究では「差がない」ことを示した研究が多いわけですが，その際の検定のロジックはすべての研究で同じであったのでしょうか．帰無仮説が棄却できなかったわけですから，そこから事後検証として検出力分析に移った研究もあるでしょうし，あるいは最初からJMPを使って「同等性の検定」を実行した研究もあったかもしれません．いずれにせよ，研究の取り組み方によって効果量をどのように見積もったのかが異なってくるはずです．おそらくレビュー対象となった研究には一つとして同じものはないのではないでしょうか．その他にも，有意水準，サンプルサイズ，検出力（これと関連して母分散）など，仮説検定にはその前提となった意識的，無意識的な条件が数多くあります．系統的レビューは一つ一つの研究報告がデータになるわけですから，それらから定量的な結論（例えば棒グラフ）を導くには本来は実験計画によるべきです．このような多数の因子に影響されるデータをモデリングする場合，サンプルサイズが大きければ多変量解析の手法も使えますが，86論文では微妙なところです．しかも共変量がないことを前提としますが，この場合それもちょっと怪しいです．
因みに，JMPでは「同等性の検定」実行すると「等しいと見なす量」Difference considered practically zeroを聞いてくるだけなので，右側と左側で検定を実行しているだけのようです．これは非常に現実的かつわかりやすい手法と思います．一般的には効果量を見積もってa posteriori(事後) 的に検証するわけですが，これがわたしにはどうも曖昧です．効果量は対立仮説が明確に定義できるという特殊な状況でのみ意味を持つように思うからです．ましてや，差がないことを確認したいのに，その効果を見積もらなければならないというのは抵抗があります．効果量がわからなければベータリスクは計算できず，従って検出力もわからないわけです．
しかも，効果量にもいろいろ定義があってCohenのdとかHodgesのgとかが有名ですが，他にも二つのサンプル間の相関を補正したものなど様々な指標があります．社会心理学の学会誌のBASP（Basic and Applied Social Psychology）がp値を使った研究の投稿を受け付けないと発表したのをきっかけとしてでしょうか，仮説検定という手法には逆風が強い昨今です．以前と比べて効果量に言及した論文が増えてきているようです．
わたしはBASPの決定について少し疑問に思うところがあります．ある会社でカッターを使用中に怪我をした人が出て，以降その会社ではカッターの使用が禁止されてしまったそうです．カッターというツールで怪我をすることを心配するならば，それを必要とする行為がなくすか，まずは怪我をしないようなツールの使い方を徹底させるべきです．そうでないとハサミで怪我をすることになります．
BASPのp値禁止例は苦渋の決断であったことが文面から読み取れますが，ここに書いてある代替手法を使ったとしてもすべてがクリアになるわけではありません．このQ&Aに書いてあるように，信頼区間もダメでベイズも積極的にはすすめないということであれば，何を使えばいいかというとstrong descriptive statisticsとのことです．そしてこの中に効果量の算出も含まれると．サンプルサイズが正義というのは社会心理学的にはそうなんでしょうけれど，少ないサンプルで開発をしていかなければならない技術者の立場からは違和感があります．社会心理学であっても，サンプルサイズを大きくするには費用もかかるのでそれこそスポンサーの有無が研究結果に影響を及ぼすことになりかねません．p値のかわりに効果量を使うだけならば，カッターを禁止されてハサミで怪我をすることになるだけではないでしょうか．
昨今のp値をめぐる議論については，わたしは技術者の立場からは以下のように考えています．従来通りp値で検定して，その結果を効果量で検証して両者の結果が食い違ったならばそのことを明確に報告し，必要であれば追加で実験をする．その際に，仮説検定のロジックは完璧に理解しておくべきです．心理学と違って技術者があつかう問題は通常シンプルです．素直な仮説検定が有効に使える事例も間違いなくあります．他の分野では「仮説検定は使いものにならないから禁止する」というのはある意味正しいのかもしれませんが，そういうノイズに惑わされることはありません．その上で，仮説検定は主観的な意思決定のツールなのだという認識が必須です．主観的に許容するType Iエラーとして有意水準をスタートに置くのだから，たとえ「差がある」「差がない」という定性的な判断であっても，そこに主観が入り込んでくるのは避けられないのはむしろ当然ですよね．
思いついたことをそのまま文章にしているので，なんかまとまりなくてすいません．それではまた．