「お国柄」をコントロールする

覚え書き

02.23.201809.18.2020

先週の続きをもう少し．『原因と結果の経済学』では回帰分析は「ありもののデータ」を分析するための手法として紹介されています．その上で「回帰分析」では因果関係を明らかにすることが困難であり，そのためにはRCT（あるいは擬似実験）によらなけらばならないという説明に違和感があると書きました．

「ホルモン補充療法の罠」と題したコラムにも，女性ホルモンが動脈硬化を起こしにくくしているという仮説に対して，観察データを用いた（回帰分析による）研究ではこの仮説が肯定されたものの，この効果を確認するために実施されたRCTではこの仮説は否定されたというよく知られている話が紹介されています．Women’s Health Initiative(WHI) の中間報告でホルモン補充療法（HRT）を受けるとむしろ心筋梗塞のリスクが高くなることが示された経緯は堂地先生の日本産科婦人科学会雑誌の解説（日産婦誌58巻9号）に詳しく書かれています．わたしも当時のメディアでセンセーショナルに報道されたことを覚えています．上記の日産婦誌のを読むとその後の研究でWHIの報告にもいくつかの疑問があって，未だHRTのリスクとQOLとの間の線引きはグレーのようです．RCTといえども完璧ではないことの良い例ですね．
いずれにせよ，観察データの分析ではHRTのリスクが見逃されたのは事実です．RCTと逆の結果となったことのカラクリはHRTを受けるような女性は，所得が高く健康への関心も強い，したがって生活習慣も動脈硬化を起こしにくい人々であったからとコラムでは説明されています．その一節を引用すると
「健康への関心」といった交絡因子の存在を検討せず，見せかけの相関に過ぎないものをあやまって因果関係と解釈していたのではないか．」（引用ここまで）
おそらく，このとおりなのだと思いますが，とはいえ，このミスは回帰分析という手法のせいではありません．
わたしは一度に並行して何冊もの本を読む癖があるのですが，ちょうど同じ時期に読んだ，畑農・水落（2017），『データ分析をマスターする12のレッスン』，有斐閣，に面白い例があったのでそれをここで紹介します．因みに，こちらの本は社会科学分野を対象としています．特に後半では個票データの回帰分析を扱っているので，技術者向けのデータ分析とは少々毛色が異なるのですが，二つの標本分散についてきちんと説明していたり，ダミー変数を導入した質的変数の扱いについての説明は優れていますし，何よりも著者自らがデータに向き合っていることがわかるよい本です．
ここの計算は統計ソフトを使えば簡単にできます，とあっさり流している箇所が度々でてきますが，統計ソフトのありがたさが実感できます．データの性質から質的データの分析が多く紹介されていて，JMPで名義尺度の「モデルのあてはめ」を実行すると，その背後でどのような処理が走っているのかを知ることで，データ分析の理解は一層深まります．
さて，『12のレッスン』にある女性労働力率と合計特殊出生率との関係をJMPで3分間分析してみました．このデータ分析の背景は女性が働くようになると少子化が進むという仮説に対する検証です．この段階で（この本では明示的には触れてはいませんが），交絡因子として「経済の低迷といった社会背景」が考えられます．この状況で社会実験を実施しなければ因果関係はわからないと評論するのは簡単ですが，まずはデータに向きあうことが重要です．このデータでは1980年と2000年のそれぞれで都道府県ごとの上述した二つの変数が記載されています．相関をみるだけならJMPのグラフビルダーを使えば簡単です．『12のレッスン』にあるデータ全体の相関係数と年を層別にした場合の相関係数は正負が逆になるという「シンプソンのパラドックス」もこのようになります．本日は時間がなくPDFでアップしますのでサムネイルはありません．
PastedGraphic-1.pdf
PastedGraphic-2.pdf
ここで経験ある分析者であれば警戒のアラームが鳴るはずです．『12のレッスン』ではこのパラドックスの背景には「都道府県における地域背景」が関与しているのではないかとの仮定のもとに次の分析にすすみます．ここで問題となるのはこの地域ごとの社会経済環境という「お国柄」はデータには直接現れていないこと，そもそもデータとして観察することすら困難であるということです．このようなサンプルの固有の特徴を個体効果と呼ぶわけですが，これは上述したHRTのリスク調査における被験者の収入や教育レベルあるいはその総合指標としての生活習慣に相当するものでしょう．
この個体効果を如何にしてコントロールするかということが重要になってくるわけですが，都道府県を名義尺度にしてモデルをたてると，ダミー変数を46個導入することになってしまい，このような説明変数が多いモデルはオーバーフィッティングのリスクが大きく，できるだけ避けたいところです．実際にやってみると寄与率はかなり高くなりますが，そのモデルの価値はどれだけのものなのか再現実験なしにはなにもわかりません．この場合，再現実験を実施することは不可能です．産業分野の技術者はなんと恵まれていることか．
本文にも言及されていますが，関東，京阪とか中部，北陸といった地域ごとにまとめるのも一つの手ではありますが，県境が地域特性の境になっているわけではないという日本の特殊事情がどのような影響をもたらすか．出張で天浜線（天龍浜名湖鉄道）や遠鉄（遠州鉄道）に何回か乗ったことがありますが，静岡県でも静岡市と浜松市とでは全く異文化の感があります．静岡市でも旧清水市とはまた違ったお国柄のような気もします．
個体効果をコントロールするための手法として，年の差分データで回帰分析するという方法が『12のレッスン』でも紹介されています．差分データの回帰モデルの定数項をトレンド項ということを知れば，この手法で何をしているのかが理解できることと思います．少しだけしくみをお話ししておくと，都道府県ごとの回帰モデルの切片が個体効果をあらわしているとして，それは経年変化はしないだろう（少なくとも数十年のタイムスパンでは）と仮定すると，これが1980年と2000年との差分データで消えてしまうことがポイントです．JMPでの結果を示しておきます．
PastedGraphic-3.pdf
相関は弱いとはいえ負の相関が示され，女性が働きに出ると出生率が低下する傾向が示唆されています．もちろん，他の年度のデータだけでなく各種経済指標などをデータに取り込むなどで回帰分析による結果の信頼性は高まっていき，因果関係に近づくことになることが理解できます．WHIのデータが入手できればこの手法を適用してみたいところです．
というわけで，因果関係の探求には回帰分析という手法そのものではなく，データの質が問題なのであって，直ちに着手できる回帰分析をとおして考察を深めていくことの価値は過小評価すべきではないと考えます．
もちろん，実験計画が大事であるという『統計的問題解決』の趣旨と回帰分析よりもRCTのほうがエビデンスレベルは上とする主張は矛盾はしません．とはいえ，穿った見方をすれば，RCT第一義を主張する背景には別の理由もあるのではないでしょうか．大掛かりな実験を実施できれば，自らの研究を社会的に認知してもらうのには大いに効果があることでしょう．特に，経済学の分野では実験といっても多くの人や政府を巻き込んだ大掛かりなものになるので，それなりの額の研究費も得られます．
一般人にRCTの威力と効果を知ってもらいたいというのはよくわかります．そのうえでRCTが直ちに実施できないような場合に，様々な手法でデータ分析を試みることの重要性も併記すべきと思うのです．
今週も書きなぐりですいません．それではまた．

補足
少し紛らわしい部分があったので補足します．『原因と結果の経済学』では差分データで分析する手法が「差の差分析」という擬似実験の一つとして紹介されています．差の差分析は英語ではDifference in Differencesあるいは略してDIDなどとも呼びます．一方，『12のレッスン』でやっている差分データの回帰分析はDID分析ではありません．因果関係を究明するためには措置群と対照群とを明確に示せなければなりませんし，そもそもDID分析に必要な三つの仮定が成立していないからです．
とはいえ，データの差分を取ることのエッセンスは同じです．名称は異なっていても回帰分析という手法における一つのテクニックに過ぎません．私が回帰分析と考えているもの（それはごく普通に統計学の教科書に書いてあるものですが）とこの本で回帰分析と定義しているものは異なるので注意が必要ですね．もちろん，措置群と対照群とを明確に意識してとったデータであるか否かということが（因果関係の）エビデンスレベルには重要ということは全くその通りです．