• タグ別アーカイブ: 人材育成
  • JMPとアクティブ・ラーニング

    昨年も同じネタを書いたのでよく覚えているのですが,11月1日は紅茶の日でした.先週はSummit直後だったので書きそびれてしまいましたが,今年も紅茶協会が紅茶はインフルエンザ予防に効果あるというツイートが流れてました.今年は「無責任なこと言うな」とか「誇大広告ではないか」などと言う反応もあって,去年と違ってプチ炎上したので,統計リテラシーを備えた方々が増えてきているのかも知れません.とは言え,これが雑誌や新聞などのメディアに取り上げられると,もはや疑うことをしない方々もネットでは多くいらっしゃるのも事実です.


    私は統計リテラシーのセミナーを色々なところでやっているのですが,この紅茶のインフルエンザ予防の話を題材に取り上げることがあります.時間が限られているような場合,通常は座学というか講演形式でやるので,この題材は消化不良になるので取り上げませんが,時間がある場合は,この題材を使って自分で考えることを目的としたアクティブ・ラーニング形式を取り入れる試みをしています.アクティブ・ラーニングをご存知ない方もいるかもしれません.はっきりした定義は不明ですが,要するに受講生が能動的に学ぶ形式を言います.受講生は座って耳を傾け,メモをとるだけでは済まないのです.ある程度アクティブな形式にするとものの見事に世代によって反応が異なります.若い世代は順応しますが,ある年代以上の受講生が多い場合などは,途中で無理と判断して急遽座学形式に切り替えたこともありました.

    アクティブ・ラーニングでは,取り上げる題材が重要です.紅茶のインフルエンザ予防効果について取り上げるのは,これが統計リテラシーを学ぶのに適しているからです.このセミナーを受ける予定の受講生がこのブログをみている可能性もあるので核心部分は伏せますが,以下にこのセミナーのポイントを書いておきます.核心部分といっても隠すようなものではないのですが,ネタバレしてしまうのも受講生に申し訳ないので.

    まず重要なのは情報源に接することだと言うことを学んでもらいます.この場合,三井農林のお茶科学研究所が引用元で,原著が『感染症学会誌』に掲載されているので簡単に引用文献に行き着きますが,それが隠されていたり引用はあっても探すのが困難な場合も多くあります.その場合の検索の仕方を考えてもらい,いくつかのコツ(特に英語の論文)を学ぶのが最初です.その上で,その情報源の信憑性について議論してもらいます.情報源のどこを見れば良いのか.いくつかのポイントがあります.この場で1つだけ上げておくと著者の立場に注目します.

    この論文では筆頭著者は昭和大学医学部細菌学教室の先生ですが,三井農林株式会社の食品総合研究所の研究者も名を連ねています.因みに私とは全く関係ない企業ですが,後に「日東紅茶」へ名前が変更された国産ブランドの「三井紅茶」を1927年に発売しています.紅茶を販売する企業が加わっていることは注意すべきです.もちろん,データ捏造を疑うわけではありません.ただ,紅茶のインフルエンザ予防効果を示すことを研究目的に据えているならば,そこに何らかの意思があるのが自然でしょう.この意味ではステークホルダーが著者に混ざっていると言うのは情報源の信憑性にはマイナスですが,それを隠すことも可能と言うことも覚えておくべきです.

    他にもいくつかポイントがあるので,それらを学んだ後に,本文を読んでもらいます.といっても,受講生のほとんどはこの論文を読みこなせるだけの医学知識はないので,in vivoとかペア血清などの用語について教えます.時間があれば調べてもらうこともあります.その上で,論文の構成がどうなっているのかを学んでいきます.この論文では,冒頭に「要旨」がきて,「序文」「材料,対象および方法」「成績」「考察」「文献」と続いています.それぞれの構成要素の役目を理解し,情報の信憑性を確認するにはどこを読めばいいのかを考えてもらいます.時間を掛けずに情報のエッセンスを抽出するコツと,(論文を書いたり発表したりといった)自分が情報を発信する際などに,抜かしてはならない構成要素を学びます.本来は学校で指導を受けているはずなのですが,このセミナーはレポート作成にも役に立ったと喜ばれることも多いです.

    論文の構造を読み解いていくと,どうやらカイ二乗検定と言う統計手法が適用されているらしいと気づくのですが,統計学に詳しくない受講生がほとんどなので,そこでカイ二乗検定を例にとって検定の仕組みを解説します.統計学のセミナーでは二項検定を例にとることがあるのですが,統計リテラシーのセミナーではカイ二乗検定を例にとります.検定を教えるには,先にその仕組みを教えるよりも.どうすればこのデータをもとに正しい意思決定ができるかを考え,その結果として仮説検定に自ら辿り着くように誘導するのがコツです.断然このやり方の方が検定についての理解が深まります.この過程で,検定による正しい意思検定のためには,サンプルが母集団の性質を引き継いでいなければならないことを見つけ,RCTによるデータの価値を考えてもらいます.

    最終的に,この紅茶の効果の論文には何が欠けているのかを議論してもらうと言う流れです.論文を批判するわけではなく,こうすれば更に良くなったね,と言う方向に持っていくことが肝要です.この論文では,コントロール群の設定がこれでよかったのかと言う疑問が出れば合格です.そしてこの論文の著者の意見「紅茶エキスによるうがいは,インフルエンザを阻止しうる可能性が示唆された.」と言う表現と,それを引用した紅茶協会「紅茶はインフルエンザウイルスを99.9%無力化します!」と言うポスターとそれを宣伝した「紅茶はインフルエンザウイルスの感染力を奪う」というツイート,更にはそれをネタにメディアが「紅茶がインフルエンザを15秒で無力化するって本当なの?」などと言う記事を書いていると言う現実を見比べてもらいます.

    情報の伝言ゲームの実態を観察し,その上で自らがその伝言ゲームに組み込まれないようにするにはどうすべきかを発表してもらうと言う流れです.アクティブ・ラーニングではデータ分析をデモするのですが,JMPはこの目的には最も適していると思います.セミナーの流れが定式化できないので,受講生からの質問に答えるためにその場で層別化をしたりすることもあり,分析の柔軟性に優れているからです.時間もないので,事前に分析結果をスクリプトに保存しておくことができるのも大変便利です.

    JMPを使った教育について色々と考えているこの頃です.Summitでは米国SAS社のトレーニングマネージャーのスコットさんともお話しましたが,参考になることが多かったです.機会を作って同じ仕事をされている方々と一度お話をして,お互いの工夫を開示しあってみたいと考えています.

    それでは本日はこれで.


  • 大掃除と最適化

    今日から12月ですね.12月と言えば師走.師走と言えば大掃除を想起するのが日本人です.新年早々を塵一つなく迎えたいという願いの顕れでしょうか.何かと忙しい年末にわざわざ大掃除しなくとも,新入学・入社を期に引っ越しする際に不要なものを捨てたりすることが多いでしょうから,大掃除をするならば3月のほうが合理的のような気もします.米国ではスプリングクリーニングといって大掃除は春と決まっていました.これは冬の間の暖房(石炭ストーブや暖炉など)の汚れをシーズン終了を機に家中を掃除したことの名残です.大掃除とまではいかないけれど,今でも春先になると机の上の整理・整頓をしたくなります.

    という枕を置いて,以下強引に問題解決に繋げてみます.

    『オトナ女子の整理術』新星出版社編集部 (編)という本を何気なく読んでいたのですが,気になったことが書かれていました.この本そのものは新社会人になる若い女性向けのマナー本とでもいいましょうか,30分もあれば読めてしまう本ですが,その中に「整理と整頓の違い,わかりますか?」というコラムがあって次のように書かれています.

    整理は「いらないものを処分すること」,整頓は「必要なものを分類&片付けて整えやすくする」こと
     
    
この定義には少し異議があります.私の考えでは,整理は見栄えを良くすることを第一義とし,整然と揃えるための行為です.真っ直ぐに並べたり角を揃えたりといった見た目だけでなく,分類や分別もこの範疇に入ります.「整理」の理は道理の理であって曲がらず真直ぐという意味です.エントロピーを下げると言い換えてもいいかもしれません.一方,整頓は素早く作業できるということが第一義で,例えば,ものを所定の場所に戻したりする行為です.ですから,分別するのは「整理」ですが,それを廃棄するのは厳密にあは「整頓」です.ゴミ箱の中が所定の場所というわけです.整頓の頓の字に注目してみて下さい.仏教で修行の過程を経ずに直ちに悟りにはいることを頓証菩提と言いいますが,頓は直ちにと言う意味です.薬の頓服なども症状が出たら直ちに飲む薬のことです.頓服薬でない場合は,食後とか食間とか症状に関係なく飲む薬として内服薬を出されますが,こちらは口から導入するという意味なので,対にするならば外用薬でしょうか.閑話休題.

    この本ではいろいろなケースについて整理か整頓かの例を示して,読者の理解を促していますが,書いた人が混乱しているようで,これを読むとむしろ混乱します.例えば,この本で「整理」の例としてあげているのは以下の行為です.
    1.書類をいるものといらないものに分ける
    2.机の上にあるものをとりあえずダンボール箱に移す
    3.必要のない名刺を捨てる
    4.終わった仕事の資料で,残しておくものと捨てるものを分ける
    5.外出後にかばんの中を整理し,いらないものを捨てる

    分別する行為,言い換えればエントロピーを低減するのが「整理」という私の定義に照らして上記の例を判定してみると,1と4は確かに「整理」です.ですが,3は必要性によって分類する行為は「整理」ですが,不要な名刺を保管せずに捨てる行為は「整頓」です.因みに,5は本当にこう書いてありました.整理するならば「整理」だろうと思うかも知れませんが,これは「整頓」です.不要なもの満載でも整理されている鞄はあり得ます.2では,机の上が綺麗にみえるならば「整理」とも言えますが,移動しただけで分類されていないのですから,「整理」とはいえません.部屋の片づけをする際に,とにかく一切を箱に詰め込むという人がいまして,彼曰く「何か探し物があれば必ずその箱に入っているから早く探せる」と豪語していましたが,ある意味でこれも「整頓」かもしれません.

    一方「整頓」の例としては次の例があげられています.
    6.ファイルのサイズを合わせて並べる
    7.メモをテーマごとにA4の紙に貼る
    8.終わった案件の書類を処分する
    9.机の引き出しに仕切りを入れて,文具を取り出しやすいようにしまう
    10.帰る前に机の上をざっと片付ける
    11.本棚の本を分類ごとに並べる
    12.パソコンのファイルをテーマごとに分類する
    13.使った資料を棚に戻す

    分別して「整理」した後に,それを所定の位置に置く行為が「整頓」,言い換えればアクセス速度を向上させるのが「整頓」という私の定義に照らせば,これらの例は確かに「整頓」ですが,大きさで分類する行為などは「整理」でもあります.大きさの順に並べることの目的が見栄えなのであればそれは「整理」ですし,必要なファイルを探しやすくするのであればそれは「整頓」です.また,仕切りを入れるということの効果はものに所定の位置を与えるということで「整頓」で間違いありませんが,仕切りの効果は見栄えを良くする「整理」にもなっています.本を分類する作業は「整理」ですが,分類ごとに並べると大きさや色で揃わないことになるので見栄えはよくなリませんので,探しやすくなるという点からは「整頓」で正解です.

    「整理」と「整頓」はともにシステムの状態を変化させる行為と考えることができます.この場合,「整理度」と「整頓度」という数値特性でシステムを記述して,これらでシステムを多目的最適化することも可能です.この場合,例えば,机の上の状態(モノの位置)を最適化するとして,どのようなデータを取ればよいでしょうか.「整理度」であれば画像処理でモノの並びの直交度等を計算して数値化したり,「整頓度」のほうは人の位置からのものの重心位置までの距離の積算値,あるいは何らかの作業を仮定した距離指標を画像計測してもいいでしょう.でも,両者の定義は上述のように人によって曖昧ですし,仮にわたしの定義によったとしても数値化には主観が入ってきています.しかも,おおよそのところ両者は相関があるといえるので,そもそもこの二つを独立した特性と看破することが困難です.最高に整理された状態が作業効率が最大とは限らず,逆もまたしかりなので,多目的最適化が必須であることは間違いありませが,主観的特性では最適化の数値目標が不明確なので,どの状態が最適なのか決めるのが困難です.

    こういう正体が良くわからない主観的特性を最適化するときの戦略の一つとして,フルモデル(二次までの交互作用と二次項をすべて)でカスタム計画を作ることがあります.異論はあると思いますが,わたしはこの場合の最適化基準はI最適でいいと考えています.その上でまずは実験し,そのサンプル(今の例では画像)から可能な限り数値を引き出すことを試みます.要するに実験が先で特性は後から考えるという方針です.最初から計測手法を限定せずに,あらゆる特性の候補を立てます.もちろん,実験単位が製品であるような場合に限ります.机の状態であれば画像を残しておいて,後からありとあらゆる画像計測を実施することになります.これら特性の候補についてモデリング,最適設計を繰り返して,意味のある結果が現れるかを考察しますと,思いがけないトレードオフが現れたりすることがあります.フルモデルは実験数が多くなるのが難点ですが,(少なくとも二次までの)交絡はありませんし,何が特性となるかわからないという状況ではとても有効です.

    この人は考えるより先に手を出すのが好きだなと思ったときにはフルモデルの戦略をお勧めしています.一方で,考えることが好きで慎重なタイプの人には主効果のみで計画を立てたり,決定的スクリーニングを先行する戦略を指導しています.ですから,良いコンサルテーションにはまずその技術者のタイプを見抜くことが大切です.

    いささか強引で落ちはつけられませんでしたが,今週はこれにて.


  • 統計とチンパンジー

    今年のDiscovery Summitでは産業分野からの発表が増えました.産業分野からのコミッティ委員メンバーとして,ありがたいことです.企業に所属している技術者が社外発表するのは,会社によってはハードルが高くてなかなか困難なご時世ですが,それを乗り越えてでも価値があると考えています.

    これはわたし自身の体験ですが,発表を意識することで考察のレベルがぐっと高まります.発表前になって粗を見つけてしまい大慌てで対策を考えたり,あるいは発表のストーリーを軌道修正したりということは度々あります.そこに価値があります.技術者としてもそのことには気づいているので,発表はしたいんだけど,という方がたくさんいらっしゃいます.Summitでもある企業の術者の方とお話ししたのですが,発表を検討していたんだけれど上司に「まだそのフェーズでない」と言われたとか.t分布の発見で有名なゴセットが,所属していたギネスビール社に隠れてStudentというペンネームで論文を発表したことはよく知られています.当時も「まだそのフェーズでない」と言われて彼が引き下がっていたら,確実に統計学の進歩は遅れていたことでしょう.とはいっても,Summitは学会ではないのでデータは作っても構わない(その旨は明示すべきですが)と考えていますし,技術背景も代替モチーフで説明しても何ら問題ありません.わたしが一昨年の発表で使ったメッキの事例は「ある半導体プロセス」の代替モチーフです.

    Summitの場合,もう人つ発表者に恩恵があります.発表者には参加費無料(ポスターは半額割り引き)の特典があるのはご存知だと思いますが,実は前夜にプレナイト・ディナーが開催され,そこにも招待されるのはご存知でしたか.その場には米国からSAS社の幹部も参加していますので,いろいろとJMPについてに深い話も聞けます.わたしも今回,あるスクリプトの一般公開の可否についてスクリプトを書いた本人(テクニカルセッションに登壇したBrady Bradyさん)に直接尋ねることができました.因みに,現時点では公開されていないが,公開する方向で検討するというお答えでした.

    プレナイト・ディナーにはコミッティメンバー全員に簡単なスピーチをせよとの依頼を頂いたので,以下のようなお話をしました.日本人が多数の場であり,米国SAS社の幹部には通訳がついているので,日本語でお話しすることも考えましたが,韓国からの参加者が3名ほどいらっしゃるので,英語でやってみました.久しぶりに英語を話すので,皆様に通じるかが不安でしたが,後で韓国からの参加者にお世辞でしょうが「Good presentation」と言っていただけたので言いたかったことは理解していただけたようです.以下は覚えている限りの要旨を補足,修正しています.

    スピーチここから
    昨年,幸運にもJMP14についての early adopter version を試す機会に恵まれましたことに感謝しています.小さなバグを見つけたのでそれを報告し,製品版で修正されました.JMPのMac版に貢献できて幸せです.そのとき,JMP wish listにささやかな要望も投稿しました.未だに誰からも反応ありませんが,今でもMacbookのTouch Bar にtool メニューが欲しいと思っています.
    これはJMPユーザーとしての要望ですけれども,現在は単なるユーザーとしてよりも,JMPのadvocatorあるいはエバンジェリストのような役目で立ち回る機会が多くなってきました.ことあるごとに,周囲にJMPを使ったDOEや統計分析の重要性を訴えていますが,多くの人からの反応はまだ薄いのが現状です.なぜあの人たちには,世の中の常識が理解できないのかについていろいろと考えるに,思い当たることがありました.
    道具を使うチンパンジーのことをご存知かもしれません.いくつかのチンパンジーのグループは平たい石の上に種を載せ,ハンマーのような別の石でそれ潰して中身を食べます.野外観察によると,婚姻のため道具を使わないグループから道具を使うグループへ移動したメスのチンパンジーは生涯にわたって道具を使うことを覚えられないそうです.彼女の子供は道具を使うことを覚えるので,遺伝ではありません.京都大学の研究者によれば,チンパンジーは幼少期のある一定の時期に道具を使うことを学習しないと一生道具を使えないのだそうです.
    この話を思い出して腑に落ちました.世の中の常識が理解できない人々は新人のときに統計ツールを使う機会がなかったので,もはや統計あるいはJMPを使うことができないのです.そこで私は戦略を変えました.理解できない人々を説得して時間を無駄にするよりも若い技術者を指導していくことが肝要です.明日のジャパンセミコンダクターの坂本さんの発表はその成果の1つです.皆様が明日の彼の発表にきてくださることを望んでいます.
    スピーチここまで

    因みにDOEの重要性や統計ツールの有効性が理解できない人々をチンパンジーと言っているわけではないですよ.この意味ではわたしたちも同じチンパンジーには違いなく,ただわたしたちのグループは道具を使うことができるというだけの違いです.現時点では道具を使うグループも使えないグループも共存しているわけですが,今後の環境の変化などで生き残っていくのは道具を使うグループであることは間違いなく,これはチンパンジーに限ったことではありません.

    それではまた.


  • 人材育成の三つの手法

    社内での教育というと既に決められたカリキュラムがあって,全員が同じ内容を受講するような形態が多いと思います.その他,セミナーや事例相談の要求にはオンデマンドで都度対応しいますが,やはり効率的ではないように思います.それは対象者(以下クライアントと呼びます)のやる気と知識・能力に応じた木目細やかなサポートができていなかったというわたし自身の反省でもあります.

    この図では,クライアントをやる気と知識・能力の二次元でマッピングし,それぞれの領域に適したサポート手法を示しています.ここでやる気というのは「明確な目標を持ちそれを達成したいと思う気概」のことです.また知識・能力はその「理解度レベル」を指標とすべきものです.この図には三つの手法を示していますが,それぞれについて簡単にご説明します.


    ティーチングとはやり方や問題の答えを示し見せることです.具体的には各種の講演やセミナー,統計学の座学あるいはJMP実習などが相当します.トレーニングとはできないことをできるように訓練することです.その語源からも明らかなように指導者(トレーナー)がクライアントを列車のように後ろに引き連れて目的まで運ぶイメージです.ここで重要なことは,事例に対して正しいコンサルティングを実施してクライアント成功体験をもたらすことです.このことがやる気を高めていくことにつながります.コーチングとは自らを高める意欲のあるPJLをより高みに連れていくことです.コーチングの語源が馬車であることからもわかりますように,目的地はクライアントが自ら決め,その道のりを指導者(コーチ)とともに進みます.ここでは両者は一つの目的を共有する信頼関係で結ばれた基本的に同格の存在です.このため,コーチングは緊急性の高い状況では不適切であり,何よりもクライアントにやる気とそれなりの知識・能力が欠かせません.誰にでもコーチングが適用できるわけではないのです.

    このような手法を使い分けていくのに欠かせない技術がクライアントのプロファイリングです.具体的には対話を通して,現時点でのやる気と知識・能力を評価します.この過程でクライアントに真の問題に気付いてもらうことも重要なことなので,わたしはこの手法をカウンセリングと呼んでいます.
    まとめますと,人材育成と一言で済ませるのではなく,次の三段階の手順を踏んだ効果的なサポートが必要だと考えています.
    1.カウンセリングによりクライアントのやる気と知識・能力を評価する.
    2.それに応じて適切なティーチングとトレーニングを実施する.
    3.やる気と知識・能力が十分養われてきたならばコーチングを実施する.


  • データサイエンスと人材育成

    ようやく「JMPで始める統計的データ分析」を脱稿しました.これから書籍としての仮組みをして頂き,内容のチェックや図版のトレースに取りかかることになります.それまではまだ間がありますので,本書とも関係あることを書いていこうと思います.

    わたしは「データサイエンスの推進」を業務としていますが,本書はその際の教科書となることを意識して書きました.データサイエンスの定義にもいろいろありますが,データをサイエンスの枠組みで扱うための具体的な手法と捉えるのが理解しやすいと思います.この意味で,統計的問題解決はデータサイエンスに含まれていることになります.とはいえ,本書では意識してデータサイエンスという言葉は避けました.それはデータサイエンティストという別のものを意味する言葉と混同して欲しくなかったからです.

    実は本書の初期草稿ではビッグデータに関する第7章がありました.(ページ数の制約から割愛せざるをえませんでしたが,ゆくゆくはこのブログ等で紹介したいと考えています.)そこで書いたことでもあるのですが,改めて申し上げておきますと,データサイエンティストをデータサイエンスを実施するものという広い意味に解釈するのは間違いです.データを用いてビジネスにおける意思決定をする(あるいは意思決定者のサポートをする)ものという本来の定義の範囲内にとどめておくべきです.ですから,データサイエンスを使う職業には技術者・研究者とは別にデータサイエンティストがあるということなのです.統計的問題解決の立場からはデータサイエンティストは違う世界の人であると考えてください.技術者・研究者との違いはその目的がビジネス課題に直結しているということ以外にも,その手法により大きな違いがあります.

    具体的に言うと,統計的問題解決では実験計画のような能動的データ取得をベースとするのに対し,データサイエンティストが対象とするデータはビッグデータのような受動的データです.受動的データというのは誤解を招くかもしれませんが,あるがままのデータを使うという意味で受動的といっています.具体的には「実験」ではなく「観察」によるデータということです.もちろん,サイエンスの枠組みでは実験データだけでなく観察データを扱うことも可能ですし,更にはデータサイエンティストでもABテストと呼ばれるような実験データを扱うこともあります.ABテストとはアメリカの大統領選挙でオバマ陣営がWEBページの最適化に採用したことで有名になった手法です.ようするに画面Aと画面Bという二つのパターンをランダムに表示して,どちらがより期待する効果を出せるかを検証する手法で,実験計画とは言えないものですがデータ取得に能動的な要素が加わっていることは間違いありません.学会論文レベルでは実験計画を採用した事例も見たことはありますが,多くは対象が制御困難であるという理由で通常の実験計画は実施しようと思っても困難です.重要なことですが,どちらのアプローチが優れているということではありません.この点については回を改めて書こうと思っています.

    脱線してしまいましたが,このようにデータサイエンスとは単なる手法なので重要なのはその媒体,即ち人材であることを忘れてはなりません.従って,「データサイエンスの普及」とは具体的にはデータサイエンスを知って,理解して,使いこなす人材の育成ということになります.この人材育成という言葉は昨今の企業経営ではキーワードになっています.試しに「人材育成」で検索をかけてみてください.人材育成に課題を抱えていると認識している企業が多いことが見て取れます.

    わたしは「人材育成」という言葉はお歳暮化しやすいと感じています.お歳暮化している言葉の代表格が本書でも取り上げた「イノベーション」です.例えば,上司から部下へ「イノベーション」というお歳暮が届きます.(日本では上司から部下へというのは珍しいですけれど.)上司は「イノベーション」の中身については確認しないで,「イノベーション」とのし紙がかかった箱を手渡します.部下はそれを恭しく受け取りますが,のし紙に「イノベーション」と書いてあるのを見るだけで満足して中を確認もせずに机にしまいこんでしまいます.この状況が言葉のお歳暮化なのです.(わたしの造語ですから他では使わないほうが良いでしょう.)

    「人材育成」の必要性を感じている経営者はその中身を考えて指示を出しているでしょうか.おそらくそんなケースは稀で,「人材育成」の指示を受けた者がその中身を熟考して実施しなければならない状況がほとんどだと思います.少し長くなってしまいましたので,わたしの考えている「人材育成」を次回でご紹介したいと思います.