過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

使うための統計とは

覚え書き

昨日に続いての呟きです.
本書のタイトルには統計的とついているので,統計が勉強できると思った人は当てが外れたら申しわけないと思っています.「統計を知らなくても,統計を使って問題解決に挑もう」という趣旨で書いた本なので,統計の説明はしていません.統計学を勉強するには時間も労力も費やさなければならないのは他の学問と同じです.統計学を日常的に使う必要のある医療関係やデータ分析関連の業務に従事されている方々であれば,それは必要なことと諦めるしかありません,しかしながら,本書が対象としている一般の技術分野の皆さんには,最初に統計学の勉強に取り組むことで息切れしてしまい,本業の勉強が疎かになったり肝心の問題解決に十分なリソースを投入できないという状況は避けてほしいのです.

それは山登りで例えるならば,アプローチ(交通機関から登山口までの行程)で体力を費やしてしまい,登頂を断念するようなものです.駅から登山口まではスニーカーで歩き,そこで登山靴に履き替えれば,登山するための体力が温存できます.問題解決という山に登る場合でも,できるだけアプローチを楽にするためにJMPを使って技術者のリソースを温存するというのが本書の提案なのです.ですから,統計を最初から説明すると,いたずらに読者の消耗を招き,本末転倒になってしまうということを懸念していました.

もちろん医療関係者に限らず,誰にとっても統計学の勉強は投資に見合うので,JMPで統計を勉強することに価値はあります.多くの書籍がありますが,いずれも統計が目的になっている視点で書かれているようです. 一方で,統計(という道具)を使うことを目的とした書籍は(少なくとも技術者向けには)そう多くはないように思えました.『JMPではじめる統計的問題解決入門』を執筆したというのはこのような理由からです.

例をあげます.以下では既に問題がきちんと定義されているものとします.例えば,カスタム計画を使って製品を最適化するには,JMPとその最低限の操作を覚えさえすれば,実験のリソースと既存の知見さえあれば十分です.どこにも統計は出てきませんし,全く統計を知らなくても問題解決は可能です.問題によっては平均とか分散といった初歩の概念は知っておいたほうが無難ですが,それさえ知らずとも問題解決できる可能性があります.本書に書いたように,カスタム計画の実験数は「最小実験数」に最低でも1を加えたものという決まりを知っていさえすれば,既存の知見をもとに実験計画が作成でき,その実験データをもとに問題を解くことができます.ここまでは,統計はJMPの処理アルゴリズムの中にあるものの,おもてには出てきません.ところが,ある程度上級者になってくると,何故+1なのかと疑問を抱くようになります.この疑問に答えるのが統計学なのです.

「モデルのあてはめ」でのパラメータ推定の検定における誤差の自由度を考慮しなければならないため,というのがその答えです.JMPの提示する最小実験数で実験すると誤差の自由度は0になってしまいます.シミュレーション実験ではない一般の実験ではデータには必ずばらつきがあるので,この状況では(方程式の数が少なくて)パラメータ推定の計算ができません.それでは+1でいいのかというと,自由度3以上でF分布に極値が出現するため,統計学的には+4が望ましいと言われています.根拠は定かでないのですが,+6とする先生もいらっしゃると聞きました.もちろん実験数は多ければそれに越したことはありませんが,簡単に実験数を増やせない状況も多々あります.統計学はその実験がどれだけ大変なことなのかとか実験に許されているリソースを知りません.最適化の結果によって得られるコストが実験のコストを上回るくらいなら,何もしない方がマシかもしれません.実験数は統計学だけでは決められないのです.そこで+1から始めてJMPの「計画の評価」をもとに横目で実験のリソースを睨みながら落とし所を見つけるというのが本書で提案している手法です.ここには(少なくとも表だっては)統計は出てきません.

いずれにしても,必要な実験数を統計学として理解するには,確率分布から始めてF分布から検定へと勉強しなければならず,勉強し終わる頃には今起こっている問題が手遅れになるかもしれません.私が実験計画で問題を解決することを優先し,統計の勉強は必要になった時点でもいいのではないかと考えるのはこのような理由からです.仮に余分なリソースがあったとしても,自らの専門分野の勉強を優先するほうが賢いでしょう.統計を知らないと,とんでもない結果を出してしまいかねないと危惧される方もおられるかもしれませんが,実戦的な実験計画ではその結果の信頼性の検証というセーフティネットが控えているので安心です.

但し,医療関係の分野では事情は少々異なります.それはこの分野では統計学が共通言語として確立されているので,それを知らないとレポートが書けないどころではなく,論文の一つも読めないからです.更には,一般の技術分野と異なって医療分野では実験計画という実戦的な手法が比較的採用しにくいという事情も関係あるかもしれません.再現実験というセーフティネットがなければ結果の信頼性は統計学に頼るしかありませんから.SASの本ですが,大橋渉(2012)『統計を知らない人のためのSAS入門』オーム社という書籍があります.本書の企画段階で出会った本で,統計を知らない人のためのとあるので,興味を惹かれて読んでみました.冒頭のマンガで主人公が先輩に「あなたは正しく統計学を理解したうえで,SASの使い方を学んだほうがいいわ」と言われます.やはりSASを使って統計を知らない人が統計を勉強するための本なのでした.SASのユーザー事例によると著者は東京医科歯科大学にいらっしゃる医療分野の先生だそうです.やはり医療分野においては統計学というのは始めに統計ありきとして必須のものなのでしょう.

他にもAmazonで「JMP」をキーにして検索するといろいろな書籍が出てきます.例えば,長田理(2016)『JMP医学統計マニュアル』星雲社,>内田治,石野祐三子,平野綾子(2012)『JMPによる医療系データ分析』東京図書がJMPの本で売れているようですが,両方とも医療関係者を対象として書かれた本です.そういえば,今年のDSJ(Discovery Summit Japan)でも医療関係の発表が多いのです.産業分野からの発表をもっと期待したいのですが,本書を読んで出した結果を発表してくださる方がいらしたら嬉しいのですけれど.

それでは.

統計的問題解決研究所

コメント