• タグ別アーカイブ: 書評
  • 久々に本を読む

    このところ本を読む時間が取れないでいるですが,ちょうど今書いている本で統計学の初歩を書く必要が出てきたので,昨今はどういう切り口が好まれるのか参考にしようと,「高橋洋一(2018)『統計学超入門』,あさ出版」を読んでみました.統計学の初歩の初歩をこれ以上は噛み砕けないほどに懇切丁寧に解説したというだけあって,確かに易しく書かれてい流ようです.数式をあまり使わずに書かれた,読めばなんとなくわかった気にさせてくれる本は「ごまかし」だと言い切っているところに好感を持って読み始めたのですが...

    数式を意識して避けているので,確かにズバリ数式は出てこないのですが,この手の本によくある言葉で数式もどきを示しているので,何が狙いかわかりません.順列や組み合わせ,あるいは標準偏差や正規分布といった既知の数学や統計学の繰り返しにも疲れてしまいます.超入門を読むのは向学心ある社会人のはずですが,今どき平均値や標準偏差を知らない人が本を読むとは思えません.

    せっかくなのでブログねたに書評を書こうと思っていたのですが,読み進めていくうちに,色々と首をかしげる点が目に付きます.例えば,P65で正規分布を前提としてグラフの形状を説明しているのですが,グラフの頂点を中央値と呼ぶのは,少なくとも初心者が読む本では間違いを招きかねません.確かに正規分布では最頻値(頂点)は中央にくるわけですが.それと,中心極限定理の説明,間違ってますよね?そんなこんなで時間をかけて読む価値はないと判断し,最後まで10分で目を通した程度なので書評は差し控えます.

    著者が冒頭で白状しているように,編集者に口述筆記させた原稿を修正して書いたそうなので,クオリティが低いのは仕方ないのかもしれません.何しろ東大の数学科出身で統数研の非常勤研究をした経歴をお持ちの方なので,こんなはずはないと思いたいです.池上さんの本といいメディアに露出している有名人の書いた本は要注意ですね.統計学を解説した1章から4章まで100ページ足らずの本ですから,このスペースで統計学を解説することの難しさを改めて思い知った次第です.それに比べて今のところの予定では,統計学のために割り当てられるスペースは20ページほどしかありません.ここに統計学を詰め込もうとするのは無謀なのかもしれません.あくまでもJMPの本なのでしかtないですね.ユーザーが補足的に学べるような内容にしたいなとは考えているので,書ける範囲で書くつもりです.

    この本で一番得たところは,TVの視聴率調査が6900世帯を対象に行われているという記述でした.私はセミナーで視聴率調査の話をするのですが,そのとき関東地区で600世帯と説明していました.もしかしたら間違えているかもしれないと,調べたら,確かにビデオリサーチは1997年から関東地区の600世帯,約1800人を対象としていたのは間違いないようです.それが2016年に関東地区で900世帯(因みに関西,名古屋の2地区で600世帯,それ以外の地区は200世帯)に増えたようです.何れにしても日本の5800万世帯のサンプリングとしては小さい割合であることに変わりはありませんが,セミナーで間違ったことを言ってしまったようです.

    対象世帯数を増やすだけでなく,録画機を使ったタイムシフトなどの視聴方法の多様化や単身世帯の増加という環境の変化に対応したサンプリングに改良することで,予測精度を向上させたいそうです.これらのPM調査だけでなく,他の調査方法も開発しているとか.PMっていうのはPeople Meterの略で,米国で開発された調査世帯のテレビに設置する計測器のことです.調べたら,昔の記事がありました.
    個人メータ視聴率調査システム実験に入る[https://www.videor.co.jp/digestplus/tv/2017/06/2062.html]

    忙しい最中にこういう本に当たるとがっかりしますが,気を取り直してこれから「谷本雄治(2018)『テントウムシ大作戦』,汐文社」を読みます.

    それではまた.


  • 『データ分析の力』

    先日,Amazonの本書のページを見た際に「この商品を買った人はこんな商品も買っています」というところを興味深く拝見しました.どのような人が本書を読んでくださっているのかのイメージが掴めます.JMP関連の本がほとんどという中で目についたのが伊藤公一朗(2017)『データ分析の力 因果関係に迫る思考法』光文社新書です.ビッグデータのデータ分析という多くの方が興味を持つ分野の本であり,新書なので気軽に買える値段ということもあって多くの方々に読まれているようです.レビューも高評価なので,私も読んでみました.

    著者によれば,因果関係の見極め方を計量経済学の観点から解説した本とのことですが,データ分析一般を視野に因果関係の深い議論に切り込むというよりは,計量経済学におけるデータ分析の応用例を解説した本です.冒頭に,例によってアイスクリームの話などを引いてRCT(ランダム化比較試験)が出てきます.それに続いてRCTが利用できない状況で,意図的な実験ではないデータを利用する様々な手法とその限界とともに紹介されています.実験計画がごく普通にできる産業分野の技術者にとって,この本を読んでこれらの手法の概念を理解するというよりは,データ分析は分析者の工夫と熱意で成し遂げられるものということを理解することの方に価値があります.

    社会科学や心理学,それにこの本のような一部の経済学は一般一般にはデータ分析がしにくい分野です.特に心理学では様々な工夫を凝らしてデータが取られていますが,その多くは相関研究ではあるものの,論文の結語にその旨の注意が書かれているものが多いです.RCTを実施するにはコストだけでなく倫理面でも大きな障害がある分野です.相関研究だとしてもそこにはデータを積極的に取る為に大きな努力が必要です.自然とそこにデータを扱う態度に対して他の分野との温度差を感じます.技術者上りよりも営業畑からの人の方がデータ分に向いていると聞いたことをこのブログのどこかで書いた記憶がありますが,良いデータ分析に何よりも必要なのは熱意なのかもしれません.

    もちろん良い本だとは思いましたが,RCTの重要性を理解するなら他にもいろいろ良い文献があります.例えば,私が最初にRCTという言葉を知ったのは,ずいぶん昔のことですが,日本産科婦人科学会の学会誌の津谷 喜一郎 , 石川 睦男,日産婦誌第51巻 第9号,第51回日本産科婦人科学会生涯研修プログラムの中の7) Evidenceと臨床試験です.この文献は実際にご覧いただければわかるのですが,エステサロンの効果を解説するために広告から持ってきたという写真が載せてあるのですが,その女性の写真の腕に文字が写り込んでいてとてもシュールなのでとてもよく記憶しています.この当時でもフォトショップがあったのでこの程度のノイズは簡単に消せたはずですが,このまま掲載したのは著作権などに配慮してなのかは不明です.因みに,この文献で覚えた背景因子という言葉が,共変量という言葉よりもその意味が伝わりやすいと考え「統計的問題解決入門」でも背景因子を採用しました.今読み返してみると,「臨床試験の基本的構造は患者という個人の利益ではなく,患者の肩越しの母集団の利益を考えているために,個別的倫理と集団的倫理との間にジレンマが生じる」などというくだりは臨床試験の重みがひしひしと伝わってきます.

    『データ分析の力』では(偶然に)まるで実験がなされたかのような状況を利用する「自然実験」としてRDデザイン,集積分析,パネル・データ分析などが解説されていますが,JMPならば複数の背景因子を「傾向スコア」という単一の指標に集約した分析が可能です.「傾向スコア」の値をカテゴリカルな因子(説明変数)として(名義ロジスティック)回帰分析を実施することも可能です.因みに名義ロジスティック回帰では特性はカテゴリカル(例えば改善あり,改善なし)がYになります.産業分野では,何らかの処理の有無が紛れ込んでいる量産データなどが対象となりますが,何か良いデータが見つかれば,そのうちこのブログでやり方などを解説してみたいと思います.『統計的問題解決入門』の第一講で「名義ロジスティック」に言及しています.技術分野ではあまり馴染みがない手法なののでその雰囲気だけでも味わって頂こうと考えたのですが,少々高度な内容になるので,その中身には全く触れることができなかったのが少し心残りでもありました.

    『データ分析の力』を読んで一つ気になったのは,最後で説明されている内的妥当性と外的妥当性についてです.データから得られた分析結果はもちろんそのデータサンプルに対しては妥当(内的妥当性あり)ですが,分析結果がそのサンプル以外にも適用できるのかという問題を外的妥当性と言うそうです.これは統計モデルのオーバーフィッティングのところでお話ししたことと同じなのですが,私が思うに,外的妥当性がなければそもそも因果関係は議論できないのではないでしょうか.この本からは内的妥当性があれば因果関係を議論できるように読めます.少なくとも計量経済学ではそれが許されているのでしょうか?
    書評になっていませんが,今回はここらへんで.


  • DOEは斜めから学べ

    誰か訪れる人がいるのだろうかと思って始めたこのブログですが,オーム社からサポートファイルをダウンロードされた方もいらっしゃるようで,少なくとも書籍を読んでくださった人がURLを拾いに来てくださっているようです.ご面倒をおかけいたしまして申し訳ございませんが,本当にありがたいことです.書籍にアドレスを直接書かなかったのは変更等に柔軟に対応できるからです.実際に,当初はGoogle Driveに置く予定にしていましたけれど,会社からではアクセスできないケースもあったりしたので,急遽オーム社に置き場所を作ってもらいました.

    URLを拾うついでにそれ以外のブログ記事を読まれる方もいらっしゃかもしれませんので,過去の記事も読み返してみました.今まで誰の目にも触れることはないだろうと気楽に書いていたのですが,色々と訂正したいこともあります.明らかな間違いは既に修正しておきました.例えば,「JMPの提示する最適実験数で実験すると誤差の自由度は0になってしまいます.」というのはもちろん,「JMPの提示する最小実験数で実験すると誤差の自由度は0になってしまいます.」の書き間違いです.

    他にも誤解を招くような記事もありました,池上彰,佐藤優(2016)『僕らが毎日やっている最強の読み方』東洋経済新報社を紹介した記事では批判めいたことを書いていますが,幾つかの学びを得たという点では読んでよかった本です.例えば,池上さんが,情報をくれるのは斜めの人間関係であると言われているのは全く同じ思いです.NHKに新米記者の頃,その世界でのいろいろな情報を教えてくれたのはNHKの先輩ではなく,読売新聞など他社の先輩たちだったということです.後輩とはいえ同じ会社に属していればそれには競争があるからです.もちろん,他社との間にも競争はありますが,成果として「特ダネ」という非常にわかりやすい指標がある会社では,後輩をライバルとして意識せざるを得ないという気持ちはわかります.

    少なくとも専門分野に限っては,技術者の世界ではコンプライアンス遵守の観点から斜めの人間関係は築きにくいものです.いわゆる独占禁止法では競合他社との情報交換は第三条(事業者は,私的独占又は不当な取引制限をしてはならない.)に抵触する状況証拠と見做されるおそれがあるからです.かといって,縦の人間関係においても池上さんの場合のような状況があります.自分の経験からは後輩をライバルと思ったことはありませんが,それは仕事が細分化しすぎていて張り合うことがなかったからでしょう.とはいえ,後輩に何かを積極的に教えるという意識は希薄であったことも正直なところです.今でこそ人に教えることを生業の一部としていますが,当時は自分の分野の勉強に精一杯で,とても後輩の面倒を見ている余裕はありませんでした.こと専門分野に限っては,技術者の教育的な情報交流には縦も斜めも障害があるのです.

    一方,統計学やデータ処理それにDOEといった(どの分野にでも有効という意味で)一般的な知識においても,(後輩に教えるという)縦の情報の流れに障害になっていることがあります.それは上司の存在です.人は自分が教えられたように教えることを好みます.こと教育については保守的であるものです.聞いた話なので,どこの会社とは言いませんが,ある技術者が後輩に実験計画を教えたところ,その後輩は上司に「そんなことで遊ぶな」と叱責されたそうです.KKDタイプの技術者を上司に持つと部下はDOEもままならないのです.

    ところが,これが社外の人間に教えられたことであれば,異文化として受け入れてもらいやすいのです.DOEは受け入れられない上司であっても,それが舶来のものであればありがたがるというのは,さすがに新しいものには興味があるという技術者魂は備わっているからでしょうか.これが日本特有なことなのかはわかりませんが,いずれにせよ,日本ではDOEを学ぶには斜めからが容易なようですとはいえ,一般分野といえども斜めの人間関係を築くのは今のご時世では難しい面があります.他に探すとすれば,斜めから学ぶ機会としては学会がその一つの手段ですね.代表的なところではJSQC(日本品質管理学会)がありますが,なぜか土曜日に開催されるので通常の会社員には参加しにくいし,正直申しまして産業分野の技術者の参考になる発表は少ないと思います.先にお知らせしましたDiscovery Summitが斜めから学べる場になるようにしていけたらと思っています,

    それではまた.


  • 書店にて

    サポートファイルのダウンロードのご案内が流れてしまわないようにブログの更新は控えていました.ここにもう一度書いておきます.

    サポートファイルとMCDAアドインのダウンロードについては「ファイル・ダウンロード」のカテゴリーの記事を御覧ください.

    さて,先日のことですが,三井正(2017)『JMPではじめる 統計的問題解決入門』オーム社が書店にあるのを見かけました.印刷所,運送会社,書籍卸,そして書店の皆様,多くの人の手でこの棚に置かれていることを素直にありがたいと思いました.

    統計ソフトのコーナーにはSPSSやRあるいはEXCELの本などが並んでいて,比較的大きなお店なのですが,その中でJMPの本は私のもの以外には下記の2冊のみでした.
    内田治(2015)『JMPによるデータ分析(第2版)』東京図書
    田久浩志,小島隆矢,林俊克(2006)『JMPによる統計解析入門』オーム社

    前者は第1版が私の書棚にあります.どちらかといえばJMPのマニュアル本として書かれているようなので,ある程度JMPを知っている方には物足りないかもしれません.田久先生の本も2002年の第1版第1刷を持っています.例題がプランニングとかマーケティングに取られているので今一つ技術者向けとしてはピンとこなかったと言うのが正直なところですが,当時はこれ以外にJMPについての書籍はほとんどなかったように思います.
    書店に行ってこれらの本と並んでいる自分の本を手に取ると,自分が書いた本とはいえ不思議と客観的に評価していることに気づきます.この本を買う価値があるか,自分に合っているか...文字が少し小さめで詰まっているな.これは好み.マンガがあって易しいようには見えるけれど中はどうだろう.他の本とは違ってJMPの操作は手取り足取りという感じではないけれど,JMP操作は一通りは知っているからそれでもいいかな.内容はちょっと変わったことが書いてある.統計の本というわけではなさそうだ,そういえば統計的問題解決ってなんだろう...等々.

    はい,少なくともJMP操作については親切な本ではありませんことは自覚しています.ですが,例えば上の内田先生の本(第1版)では仮説検定で締めくくられていて,そこからリレーでその先を技術者向けに解説する本があっても良いのではないかと考えました.JMP操作を含め,統計学としての初歩を解説したこれらの本があるのですから,屋上屋を課すのは誰のためにもなりません.

    その書店には他にも医学コーナーに以下の2冊がありました.
    内田治,平野綾子,石野祐三子(2012)『JMPによる医療系データ分析』東京図書
    長田理(2016)『JMP医学統計マニュアル』オーエムエス出版
    前者は先ほどと同じ著者によるもので,医療系に関連深いJMPの機能はこちらの本で解説されているようです.日本ではページ数が厚い本は売れないとのことなので,2冊に分けたのでしょうか?こちらでは実験計画についても簡単に説明されていたりします.後者はStatViewで有名な長田先生の本です.(そういえば内田先生もSPSSの本を書かれています.)MacユーザーとしてStatViewにもお世話になりました.1冊だけ本を持っていたのですが,時代からおそらく長田先生の本ではなかったかと思っています.こちらはマニュアルと題していても(JMPの)マニュアル本ではなくJMPを使った検定手法等をはじめとする医学(医療)統計のマニュアルという構成です.医学統計の論文を読む(書く)のであれば,最低限これだけは知っておいて欲しいというスタンスで書かれた本だと思います.従って,実験計画についてはサンプルサイズや検出力についての関連したことが解説されているだけなので,技術者向けには少々物足りないのは致し方ありません.長田先生の本は内容が濃いのですけれど,私には医学統計は向かないということがよくわかりました.数多ある検定の種類を使い分けることは医学統計では必須のようですが,今のわたしには必要ありません.

    医学統計という独立した名称が確立していることからも明らかなように,統計学の位置付けは医学と工学とにおいて異なっています.因みに工業統計という用語は存在しますが,その意味するところは工業に関する数値データを示しています.この違いはどこから来るのでしょうか?医学というのは基本的に対象が人間という限定されたシステムであり,固有の知見も確立されているので,手法の使い分けが(比較的)しやすいという状況もあるでしょう.一方,技術分野ではそもそも何をシステムと置くのかという問題が真っ先にあって,検定手法の使い分けまで気が回らないという言い訳もできます.とはいえ,一番の違いは(一部を除き)工学分野では統計で情報を伝達するという文化が医学に比べて圧倒的に遅れているからと私は考えます.

    まだ出版されて間もないので,しばらくしたらもう少し実のあることを書きます.それではまた.


  • あの人の統計リテラシーはいかほどのものなのか?

    このブログのカテゴリーに「Stat Spotting」というのを設けてあるのですが,まだ一本も記事がないのでこのカテゴリについてちょっと書きます.と言っても,本日は池上彰,佐藤優(2016)『僕らが毎日やっている最強の読み方』東洋経済新報社</a>書籍のレビューのようになってしまいそうです.

     「読み方」と題名にありますが,ここで公開されている手法・方法は特にユニークなものとも思えませんので,ハウツー本というよりは著者の知的活動の一端をファンに公開するといった類の本です.お二人とも新聞や雑誌,更には書籍等から大量の情報を仕入れていて,書籍の中ほどにそれらのリストが綴じ込んであります.(わざわざ別刷りの綴込みとしているのはどういう趣旨なのでしょうか?)このリストによると,ときどき読む類のものまで入れると新聞では池上さんが14紙,佐藤さんが18紙だそうです.雑誌では,週刊誌や月刊紙それに季刊,隔月やWEB雑誌なども含めて,池上さんが29誌で,佐藤さんにいたってはなんと55誌です.いくら仕事とはいえよくやりますね.真似をしようともできるとも思いませんけれど,そもそも私たちが真似をすべきではないでしょう.というのも彼らはそれが仕事の一部なのであって,私たちはお金を出して苦行ともいえる作業を彼らにやってもらっているという図式があるからです.かつて司馬遼太郎さんが,作家は読者からお金を貰って考えるという仕事をさせてもらっている,という趣旨のことをどこかで書かれていました.お金を出せばやってもらえる仕事を自分でやるのは無駄です.しかも自分でやるとなるとその何倍もの費用も時間もかかるのですから.

    それならばなぜこの本を読んだかというと,池上さんの統計リテラシーがいかほどのものなのかが判断できると期待したからです.といいますのも,統計リテラシーのセミナーの準備をしている最中なのですが,その中で池上さんの絡んだ最近の話題を取り上げようかと思案しているのです.その話題というのはtwitterでも拡散されてましたからご存知の方も多いでしょう.ご存知なければ「池上彰 グラフ」で検索してみてください.特に画像検索すると問題となった例のグラフが出てきます.グラフの軸のスケールを変えてデータを比較するという初歩的な間違いなのですけれど,偏向報道に敏感な世相というかネットが即座に反応しました.検索結果には正しいグラフではどのように可視化されるかという記事もあります.報道番組というヒューリスティックなソースとして発信されたことを考えると,このグラフで騙される人がいてもおかしくありません.

    池上さんはNHK時代から好感を持っているので悪くはとりたくないのですが,考えられれることは以下の三つです.まず池上さんが統計リテラシーをお持ちだったとして,
    1.意図してやった.
    2.スタッフの分析による台本とそれをもとにしたグラフをチェックしなかった.
    という場合があります.前者であれば,何も言うことはありません.ただ,動機が弱いのでおそらく意図したことではなかったと信じたいです.後者についても,あれだけの情報を自ら取得してながら,番組の台本をスタッフ任せにしてチェックもしないというのは考えにくいです.
    そこで大変失礼ながら,
    3.新聞は読むのは上手いけれどデータはそれほどでもない.
    のではないかと想像したのです.ご自身がデータに騙されてしまった,あるいはデータに騙されたスタッフの言説を信じてしまったのではないかということを,この本を読んでその確信を深くしました.そもそも,あれだけ日々を忙しくされていたらデータを自らダウンロードして分析するというようなことはできないはずです.データから情報をとるという作業は新聞や雑誌を読むのとはことなり,地味で時間も手間もかかる作業を強いられます.一日に新聞を14紙も読む人にはその時間はないはずです.定型的なデータを分析するだけならばJMPなどの統計ソフトを使うことで大幅に時間は節約できますし,そもそもデータ分析を外注することも可能でしょう.ですが,この場合でも統計リテラシーは必須です.しかもそれは新聞を読むこととはまた異った能力です.

    データ分析を人に依頼したとしても,その結果を統計的に読んで,その情報をもとに統計的な情報を発信することまで人に依頼するのは困難です.少なくとも自らがチェックしていなければ,それはジャーナリストではなく単なるタレントです.何かの事情があったのかもしれませんが,池上さんの事例は他山の石として取り上げてもいいのではないでしょうか.何しろ有名人ですし,これだけの人でも統計的解釈を間違えることもあるのだということは(私自身も含めて)自覚すべきことです.

    もう一人の著者の佐藤さんについてはあまり存じ上げなかったのですが,独自のデータを持っているのが強みと感じました.ただ,手法としてはKKDライクな根性論のように見受けます.また,沖縄問題には門外漢な私でさえ,それを専門と称されている方が沖縄タイムスと琉球新報を読んで八重山日報を読まれていないのかが不思議です.おそらく佐藤さんから発信される情報は少し偏っているかもしれません.もちろん,こういうことをお金を払う私たちが意識して使い分ければいいのです.これがメディアリテラシーですね.とはいえ,佐藤さんは猫好きということもこの本を読んで初めて知りました.きっとお人柄は良い方に違いないでしょう.

    さて,私たち技術者の場合でも,問題を発見しそれを解決するためのデータ分析では外注は困難です.専門外の分野であれば,それらはむしろ外注すべきと考えますが,その外注先やソースの信頼性には十分な吟味が必要です.外注に出す出さないを問わず,いずれの場合でも統計リテラシーという能力が問われます.特に,統計的に情報を発信する能力の欠如は周囲(組織)に弊害をもたらすことの危険性を感じています.そこで,私が教える統計リテラシーは統計を読むことよりも書くことに重点を置く予定です.そのためのコンテンツをここ暫く探していこうと考えています.

    最後にこの本について気になったことを一つ.紫色のマーカーがポイントとなるところどころの文に引かれていることです.とにかく目障りです.この手の類の本は最近は読んでいなかったのですが,流行なのでしょうか.そんなに難しいことが書かれているわけでもなく,しかも対談本なので会話文です.この方が本の売り上げが増すのか,想定している読者は読解力がないと考えたからなのか.そのことを謎に思いつつ,それではまた.


  • ソフィーの選択(「選択の科学」の続き)

    原稿でカットした内容を次回紹介すると書いておきながら,話を引き延ばして申し訳ないのですが,今回は「選択の科学」についての続きにします.早く書いておかないと忘れてしまうということがその理由です.おそらく現時点でこのブログを見ている人はいないはずですが,書籍がリリースされればこのブログに来てくださる方もいらっしゃるでしょう.その方々に過去に遡っていただくのも申し訳ないので「JMPではじめる統計的問題解決」の内容に関することは本書リリース後に書き始めることにしました.

    というわけで「選択の科学」です.自宅にはTVがないので知りませんでしたが,NHKで取り上げられて人気があったそうです.TVで紹介されたりすると,どうしても製作者のバイアスの影響を受けてしまうので,何事もまずは自分で考えたいという主義が次第にTVから遠ざかっていった理由です.この意味では,著者の略歴や表紙などもできるだけ見ないようにして読み始めるようにしています.と思いつつも表紙だけは見ないわけにはいかないので,「選択の科学」のように著者の写真にひきこまれたりもしています.

    表紙や本文のレイアウトが読者に与える印象は強いです.特に著者の見た目が良ければ注目も浴びます.ケリー・マクゴニガル(2012)『スタンフォードの自分を変える教室』大和書房,などが印象に残っています.先ほどAmazonで確認したら,中表紙のような地味な表紙なので,この著者の写真は帯だったのかと今更ながらに気づきました.出版社のサイトでは帯のついた写真が見れます.この本の英語版の表紙がKelly McGonigal(2013),The Willpower Instinct: How Self-Control Works, Why It Matters, and What You Can Do to Get More of Itでしたので日本語版との違いが際立っていました.

    パラメータ最適化設計もある意味では科学的に選択をしていると言えるので,その重要性は常々考えていました.幾つかのヒントを得られたので,「選択の科学」は読んでよかった本でした.前半では長いこと疑問だったことの答えを見つけられました.それは,人が対処できる選択肢の数はその性質によって変わるという説です.これは先にお話ししたことの繰り返しになりますが,人が一度に扱える選択肢の数の上限は7と言われているわけですが,ロングテールではそうでもないと米国でのスーパーマーケットの体験から感じていました.この説では一つひとつの選択肢の重要性が高くない場合では,徹底的な検討をする必要はないので選択肢の多さをむしろ楽しめるというわけです.しかもその場合,専門知識が多すぎる選択肢へ対処する能力を飛躍的に向上させるということです.例えば私の場合,車に乗るとすればFRに限るので,FF車は真っ先に対象から外します.そうすると選択肢は激減してしまうのです.ある程度の車についての専門知識が選択の負荷を低減してくれるわけで,これは定石を知り尽くしたチェスの名人が次の一手を打つ場合と同じとのことです.

     後半には,統計的問題解決にとっても重要なことが書かれていました.一つは「ソフィーの選択」(ウィリアム・スタイロン(1991)『ソフィーの選択』新潮文庫)です.この有名な小説はご存知の方も多いと思います.(映画もありますが原作の邦訳はなんと絶版なんです.世の中ゴミのような本が溢れているのに,何か間違ってるような気がします.)ネタバレすべきではない小説なので詳細は書きませんが,「選択の科学」ではルイス・ハイド(2002)『ギフトーエロスの交易』法政大学出版局から引いた価値についての次の分類を紹介しています.それは絶対的価値(worth)と相対的価値(value)との分類です.前者が,自分が大切にしていて値段がつけられないものに対する(本来備わっている)metricであり,後者はあるものを他のものと比較することによって導き出せるmetric,ということです.(metricという言葉は私が勝手に使っています.)その分類にときとして私たちは対峙せざるをえないのです.例えば,人の命をworthとvalueのどちらかのmetricにより幾つかの選択肢の比較を余儀なくされる状況があるということです.

     私は今まで人生の問題も特性値の指標をうまくとればパラメータ最適化設計で解決できるのではないかと(自覚はしていませんでしたが)考えていた節がありましたが,それは間違いと気づきました.パラメータ最適化で扱えるのはあくまでも特性のmetricがvalueである時に限ります.それがworthである場合にはせいぜい参考にするくらいではないでしょうか.何事もできることとできないことを見極めることが大事です.とはいえ,worthをmetricとした場合の最適化については研究課題として今後深く考えてみたいと思います.

    もう一つは「選択の代償」です.選択は痛みをともなうということです.「選択の科学」ではある事例で選択のための情報開示と選択権の有無で三つのシナリオ(情報なし,選択権なし)(情報あり,選択権なし)(情報あり,選択権あり)で実際の調査データをもとに考察しています.

    わたしの事例指導のスタイルはクライアントに選択肢を与え,あるいは見つけさせて,その上で選択権は委譲するというやり方です.それはよくある事例コンサルテーションでのやらされ感を低減し,成功体験をより強く感じてもらうためです.とはいえ,この本を読んで人によっては不必要なストレスを与えていたのかもしれないと気づきました.ある意味自らも紋切り型のコンサルテーションの罠に陥っていたようです.必要な場合は選択権を奪うこともありかもしれません.このためには,やはりクライアントとの対話が重要であると思っています.

    まだブログ書きの練習中ですので,まとまりのない文章をご容赦ください.それではまた.


  • 選択の科学

    表紙に写っている著者の写真に惹かれるものがあって手にとったのが,シーナ・アイエンガー(2014),『選択の科学』 櫻井祐子訳,文藝春秋です.自信に満ちたその姿はタイトルの「選択の科学」のなせる技なのかもしれません.読んでみて驚いたのは著者のハンディキャップのことばかりでなく,あの有名なジャムの実験の研究者であったことです.

    書評ではあまりネタバレしないように心がけていますが,この実験は有名なので簡単にご説明しておきます.ジャムの試食販売で26種類を並べた際には試食客のうち購入したのはたった3パーセントだったものの,6種類しか並べなかった場合は集客は少なかったにもかかわらず30パーセントの客が購入に至ったため,結果として6種類の試食販売では購入客は26種類の6倍になったという結果が得られました.いろいろな書籍でも引用されている実験ですから何処かで読んだこともあると思います.この結果を踏まえてプロクター&ギャンブルなどの企業が品種を絞ったところ,確かに売り上げが向上したということです.

    私もこの実験は知っていましたが,品数が多いことでAmazonは売り上げを伸ばしているではないかと疑問に思っていました.この疑問がこの本を読んで解けました.Amazonで買い物をする客は何が欲しいかがすでに決まっていることが多いというのがその理由です.確かにレアな本やCDなどは真っ先にAmazonで探します.

    Amazonでは食料品や電気製品なども売っているので,それらの商品に対してはロングテールは弊害となるのかもしれません.けれども,ものによってはAmzonは言われるほどにはロングテールではないように感じます.例えば,「コードバン 靴」で全てのジャンルで検索すると313件あります.一方,苦戦を報道されている楽天では2064件もあります.個人的にも楽天の方がうんざりするほど,しかも似たような商品数が多いように感じます.個人商店の寄せ集めですから商品がかぶるのは仕方ないとしても,色違いやサイズ違いでも1件として表示されるのは無駄に検索件数が多くなるだけです.もしかしたら,Amzonは「ジャムの実験」を意識して上がってくる検索件数を少なくする努力をしていのかもしれません.楽天はもう少し検索結果を購入者にうんざりさせない工夫が必要でしょう.

    話が脱線しました.「JMPではじめる統計的問題解決」ではロングテールを切り捨ててJMPの20%を手っ取り早く問題解決をしたい人を対象にしていると書いたので,やはりロングテールを拾うことができる書籍も必要かと思った次第です.その場合は目的がはっきりしている人に素早く必要な情報を提供できる工夫が必要ですね.今のJMPのマニュアルはロングテールではあるけれど,この工夫がなされていないように思います.
    書評から大幅に脱線してしまいましたので続きは来週にでも.


  • 大学生ミライの因果関係の探求

    このブログではときどきは書評も書いていこうかと思っています.本日はこの本.
    小塩真司(2016)「大学生ミライの因果関係の探求」ちとせプレス

    早稲田大学文学学術院の小塩先生が書かれた統計学の参考書で,「ストーリーでわかる心理統計」と表紙にかかれている通り心理学を学ぶ大学生を主人公にした物語です.ストーリでわかるということに興味を惹かれたので読んでみました.ネタバレはしたくないので詳しくは書きませんが,ミステリーっぽいお話しが織り込まれていて,確かにストーリー仕立てにはなっています.前作もあるようですが,そちらは読んではいませんが,おそらく好評だったので今回第二作目となったのでしょう.

    一つ,ストーリーが統計の解説に必須というわけではないのが少々残念です.もちろん,そのようなストーリーを創作するのは難しいとは思います.「連続変数殺人事件」とか「ロジスティック回帰の罠」とかタイトルだけならいくらでも思いつきますけれど.おそらくストーリーを読んで統計を勉強しましょうというよりは,ストーリーを読むついでに統計も勉強してもらいましょうという意図があるのでしょう.ちょうどほうれん草の嫌いな子供に母親がハンバーグにこっそり混ぜ込んで食べさせるというような感じかもしれません.それとタイトルにある因果関係についてはもっと突っ込んだストーリーがあるともっと楽しめたかもしれません.

    本書の紹介に戻りますと,大学二年生の主人公が統計を勉強する過程で,検定の考え方や二次の交互作用の説明などもストーリーに合わせて丁寧にかつ面白く説明されています.一つ残念なのは,このような初級者を対象にした本でも不偏分散の説明は端折られているということです.冒頭と言ってもいいp13に不偏分散が出てくるのですが,そこでは「標本分散は,データを母集団全体とみなしたときの分散,不偏分散は,データを母集団から抜き出した標本と見なしたときの分散.データの数から1を引いて算出する.」と極々当たりまえのように書かれています.なぜと思う学生は心理学の学生には少ないのかもしれません.心理学の学生は一般的には文系と区別されることが多いので,理系の学生のように理屈にはこだわらないのかもしれません.それは実務と関連付けて統計学を学ぶ者にとってはおそらく正解でしょう.

    とはいえ,どうしても細かいところが気になる人もいます.「なぜ普遍分散はn-1で割るのか?」いちど気になると先にすすめないのです.それは脇に置いて先に進むのが本当は賢いのです.世の中全てが理解できることばかりではないのですから.足元をしっかりと固めて先に進むというタイプの人にはこのことが苦痛です.正直に告白するとそれは私です.このため,統計学の勉強はかなりスタートでもたつきました.この体験については別の機会に書くことにします.

    この本の最後の章である事件が起こるのですが、そこでのテーマはデータの捏造です.ここには,これから研究する学生に向けて著者からのメッセージがあります.「人が対象の学問ではデータに手を加えるということの誘惑は大きい」ということを知っておくことは人が対象ではない製造技術系の実務者にとっても重要です.