• タグ別アーカイブ: イベント報告
  • Discovery Summit Online 2020

    枝雀の落語「夏の医者」の枕に,そもそも病気というのは昔は一つの病気だったと,それでは不便だからと,最初は上の病気,下の病気と別れて,医学の進歩とともにどんどん細分化して現在に至っている...というのがあります.分類は人を不幸にするということを『統計的問題解決入門』のコラムに書いた記憶があるのですが,まさにその通りのことが今回の騒動でも起こったのではないかと.少し前まではコロナウィルスを詳細に区別する技術はありませんでしたから,少なくとも欧米よりは被害が軽微な日本では,今年の風邪はタチが悪いと巷で言われる程度だったのかもしれません.そうであればこれほどの大騒ぎにはならなかったかもしれません.もちろん,自粛は意味がなかったなどど,後出しの論説を張る無責任なメディアのようなことを言うつもりは毛頭ありません.ですが,GOTOなんとかという怪しい英語もどきの造語を使ってまで,国民を煽るのはいかがなものかとは思います.
    *昨夜の豪雨が一転して,今日は久しぶりに晴れ間がのぞいたので写真を撮影.雲は確かに淡い陽の光の縁取りに包まれていました.(大雨で被害に遭われた方々にお見舞いを申し上げます.)

    という枕に続けるのも何なんですが,先週ぼやいていたように,iPad専用のキーボードがあまりにも打ちにくかったので,新しいやつを新調しました.この際なのでBluetooth接続にしたのでMacと共通に使えて何げに便利です.そもそも何故,iPadでこのブログを書くことにしたかというと,せっかく買ったので有効に使い分けたかったからです.そして,なぜそんなものを買ったかと言うと,オンラインセミナーの動画コンテンツを作成するためです.なぜそうすることになったのかというと,当面は対面式セミナーができなくなってしまったからで,それはなぜかというと...言うまでもありませんよね.そう言うわけで,感染症が流行ったのでBluetoothのキーボードを買うという今回の事態と相成り,風が吹くと桶屋が儲かる,という諺を体験している次第です.今まで使っていたキーボードは過去二冊の本を書いて愛着もあったので,まさか買い換えるなんて思ってもいませんでした.

    少し前までは思ってもいなかった出来事が発生しているのは私だけではないでしょう.しかも,現在進行形かつここ当面は何がどうなることやらわかりません.自宅勤務で足腰が弱って何でもないところで転倒して大怪我をされた方もいらっしゃいますし,今年は自殺者が例年よりも有意に少ないとか.私も思わぬ散財でしたが,新しいキーボードのタイピングのフィーリングが思っていたよりも好みでとても満足しています.三冊目の本を書くモチベーションも大いに上がっているところです.願わくば,皆様の日常には思ってもみなかった良いことが訪れますように.
    思ってもみなかったといえば,オフィシャルにオープンになったのでここでもアナウンスしますが,今年のDiscovery Summitはオンラインイベントにな流ことが正式に発表になりましたね.今年は初の関西進出を楽しみにしていたのですが,正直残念です.オリンピックと同じく来年もどうなることかわかりませんが,来年に期待したいです.公式ページによれば,8月15日(土)に発表の募集を締め切って,8月下旬に選出結果をご連絡することになっています.昨年は応募が多くて残念ながらご辞退をお願いした方々もいらっしゃいました.私は今年もコミッティ委員を拝命しているので,選出に絡むのですが,今年は応募が少ないのではないかと少し心配しています.特に技術系の発表は,ここしばらくは落ち着いて実験できそうもないですし,発表までの期間が短いことも懸念しています.ほとんどの会社には社外発表承認の手続きが必要と思うのですが,実質一月では概要の提出も厳しいです.
    まだ詳しい発表方法とか知らされていないので,申し込みにくいようにも思いますが,やはり9月に開催されるDIscovery Summit Onlineの情報については,米国のJMPのサイトを見てもDetails to come!となっているので,米国本社の方でもまだ詳細が決まっていないようです.とはいえ,その開催精神は,このJMP Blogの投稿に書かれているとおりです.この投稿はおそらくマーケティングのボスのDianaさん(毎年NIKONのカメラを首からぶら下げて写真を撮影されているのをお見かけします.)が書かれたのだと思います.ここに書かれている,There is a bright, shiny silver lining to moving Discovery Summits online for a while.という言葉に今年のSummitのあり方が集約されています.ちなみに,liningというのは洋服の裏地のことではなく縁取りのことです.英語には,Every cloud has a silver lining.という諺があって,どんな雲にも日に輝く縁取りがある,すなわち悪いことがあってもそこには良いこともあるから,希望は捨てないでというような状況で使います.まさに今回のSummitは私たちJMPerにとっての希望です.こんなことも書かれています.
    So, October’s Discovery Summit Cary will become the Discovery Summit “from” Cary. Discovery Summit Shanghai will be “from” Shanghai and Tokyo will be “from” Tokyo.
    CaryというのはSASの本社があるNCの都市です.あそこは近年発展が凄まじいですね.なるほど,今度のDIscovery Summit Tokyoは,東京で開催されるのではなく,東京から発信するSummitという意味なんですね.実際,個人的には,上海のSummitに興味あります.ということは,皆さんの発表が世界中のJMPユーザーに聞いてもらえるチャンスでもあるわけです.原稿を読みながらゆっくり話せるので,英語で発表するのもいいかもしれません.私も機会があれば何か発表したいと考えているのですが,皆さんの応募状況次第でしょうか.いずれにせよ.発表の概要が決まったらまたここで紹介します.
    それではまた.

  • Discovery Summit Tucson 2019

    先週はDiscovery Summit Tokyo 2019 について書きましたが,そのひと月前には米国でDiscovery Summit Tucson 2019が開催されます.ご存知かもしれませんが,あちらのSummitは一週間に渡るかなり大掛かりなイベントです.開催期間はOct. 15-18となっていますが,10月14日からPre-Conferenceイベントとして,TrainingやTutorial,Certificationが開催されます.Tutorialはあまり日本では馴染みがありませんが,個別指導や少数指導を意味しますCertificationは資格認定試験なのでJMPにもそういうものがあるようです.私などは無資格で人に教えているので機会があれば受けてみたいですが,Summitの参加費が$1495とそれなりの価格な上に,これらは別料金のようです.

    10月16日には2時間にわたるJohn Sallさんの基調講演があるので,この日が実質的なスタートでしょうか.この日は口頭発表が20件もあり,17,18日にもそれぞれ基調講演に加えて,それぞれ16件と8件の口頭発表があるので,口頭発表は合計44件にもなります.(部屋は4つなので聞けるのは最大11件ですが.)講演者の所属を見るとSAS社の方が目立ちますが,一般企業からも多くの発表があります.順不同で並べてみます.
    有名なところではProcter & Gamble,化学メーカーというか塗料メーカーのPPG Industries,半導体関連ではIM Flash TechnologiesとIntelの発表があります.私は知らなかったのですが,Hitchiner Manufacturingという機会部品メーカーとUS Syntheticというダイヤモンドカッターを作っているメーカーやMedtronic,Abbott,Elanco Animal Healthのような医薬関連のメーカーの発表も目につきます.Medtronicはペースメーカーを作っている医療機器メーカーとして有名ですし,Abbottは製薬会社ですけれどヘマトロジー検査機器を製造しているいうことは今回初めて知りました.ヘマトロジーとは血液学のことで,赤血球とか白血球とかを検査する機器がヘマトロジー検査機器です.Elanco Animal Healthは動物用医薬品メーカーですが,あのイーライリリー社の一部門だということです.

    日本法人もある大企業だけでなく,AdsurgoやSY64というコンサルティング会社からの発表もあり,あのサンディア国立研究所が名を連ねているという多彩な顔ぶれですね.SY64はProcter & Gambleを数年前に退社された個人コンサルタントの会社のようです.会社をリタイヤしてもJMPで仕事を続けることができるというのは素晴らしいですね.日本ではなかなか仕事として成り立ちません.

    一昨年だったかUS Armyからの発表があって驚いたんですが,サンディア国立研究所からどんな発表があるのかと要旨を読んでみたら,JMP Text Explorerを使用する際に,特異値分解による潜在セマンティック分析を使用したとあります.前処理を工夫して分類精度と処理時間の短縮を実現したようです.その他にも注目する発表があって,マイクロンの100%子会社になった3D XPointで有名なIM Flash TechnologiesからはカスタムメイドのJMPアドインをGitに展開する自動システムについての紹介があります.内製のアドインを全社展開するというのはかなりJMPを活用していることが伺えます.内容もSVNからGitとあるので本格的です.SVNとはApache Subversionのことでバージョン管理システムのひとつで,Gitとはファイルの変更履歴の管理システムです.

    もう1つ注目しているのがIntelの発表です.こちらも内製のJSLアプリケーションについての発表です.Intelは社内のJSL教育に力を入れていることでも有名で,今回の発表は,マスク検査で見つかった欠陥をウェハ検査で確認するために座標系を変換する処理をJSLを使ったようです.背景が全くわからないのですが,なぜJSLを使ったのかは謎です.何らかのメリットがあると思うのでぜひ聞いてみたいところです.

    半導体関連の2社ともに発表内容が現実的というか実務的なので,かなり社内でのJMP普及が進んでいるみたいですね.データ分析とか実験計画などにJMPを使うのは当たり前になっているのでしょうか.

    それでは今週はこれで.


  • Discovery Summit Tokyo 2019

    予告通り今週はDiscovery Summit Tokyo 2019で個人的に興味がある口頭発表を紹介していきます.最初に言っておきますと,今回は応募多数のため,多くの方にポスターに回って頂いたり,発表を見合わせていただくことになりました.該当された方々には本当に心苦しく思います.学会ではないので,応募者の方々のは全員発表していただきたいというのが基本方針なのですが,会場の都合でそうもいかないという事情もあります.そこは発表者の所属分野や内容の難易度でバランス調整をしなければなりません.今年はJohn Sallさんが来日されることとJMP15の発表と重なったこともあって,口頭発表は特にタイトで優先順位をつけることは必然でした.

    良い機会なので,来年は発表したいと考えている方のために,ヒントを書いておきます.因みに,以下は私個人の意見なので,他の委員のかたやSAS社の考えとは必ずしも一致するとは限りません.少なくとも,私個人としての意見と受け止めてください.産業分野の場合では,まず大事なのは内容が特定の分野以外の方にも理解できるかということを私は重視します.業界によって様々な専門用語がありますが,エントリーの際の要旨が専門用語や社内用語で溢れていると短い発表時間の中ではそれらを説明しきれないのではないかと懸念します.優先順位としては有利にはなりません.他の分野の方にも理解できるように配慮していることを,エントリーの際に明記していただくと良いと思います.また,企業によっては各地に拠点があるところもありますが,たとえ独立した発表であっても,こちらから見れば同じ会社から二つの発表と見えてしまいます.会社内で調整していただいて,複数エントリーするにしてもその中で優先順位をつけて頂いた方が良いですね.自分の会社から他に誰かエントリーしているか不明という状況ならば,SAS社の営業担当者と会話すると良いかもしれません.

    さて,口頭発表ですが,今年は50分枠は3件,25分枠は12件です.50分枠の3件ではScott Wiseさんの「グラフビルダーを活用した魅力的なグラフの作り方」が一押しです.最新バージョンのJMPで新たに追加された機能を主に紹介する「ギャラリー4」のためのグラフを作成しました。 とあるので,グラフビルダーがJMP15でどのような進化を遂げているかをいち早く知る絶好の機会です.年々機能強化されてきているので実はこれを一番楽しみにしています.昨年のScottさんの講演は一番人気だったそうで,今年も多くの方が参加されると思います.同じ枠の,高橋先生の「包括設計法の概念と技法 ~設計における同定化と模型化と最適化~」もパラメータ最適化を学ぶには良いと思いますが,時間が短いのが残念です.おそらく別の機会(JMPer’s Meetingなど)にまたお話しいただけることを期待しています.そういえば,高橋先生は全く別の「アンケートによる調査と仮想実験 ~顧客満足度の把握と向上~」というセミナーも2019年9月26日に開催されるようです.私も都合がつけば参加したいのですが,ちょっと時間的に厳しいかなという感じです.

    次の枠からは25分の発表です.最初の枠は迷いましたが,おそらく,Kelci Miclausさんの「ライフサイエンスデータによる効果的なコミュニケーションと可視化」を聞きます.理由は米国SASからいらっしゃるので,おそらくここでしか聞けないからです.とはいえ,コレスポンデンス分析や決定的スクニーニング計画の事例にも興味があり,帝京平成大学の濃沼先生,高木先生の発表にするかを今のところ迷っています.その次の枠は佐藤さん兼松さんの「ワカメ種苗生産最適化研究へのJMP活用」か上条さんの「可搬型医療機器の修理費用予測とその活用について ~ MCF(平均累計関数)の活用 ~」かの二択ですね.ただ,「ワカメ...」の方は実は某所で発表を聴講したことがあって,内容が同じであれば上条さんの方にしようかなと思っています.とはいえ,「ワカメ...」をまだ聞いたことない方はほとんどでしょうから,面白いので聞いてみてください.最後の枠は濱口さんの「L12直交表の3つの使い方 ~技術力を活かして、最短の実験を行う方法~」を聞く予定にしています.濱口さんには普段から色々お教え受けているので今更なので,田口さんの「動画マニュアル作成における作業標準化のための要素解析」の方を聞かせていただくかもしれません.とはいえ,まだ濱口さんのお話を聞いたことがないという産業分野の方は聞いて損はありませんのでお勧めします.

    一応コミッティメンバーとして義務はないものの,この催しを盛り上げたいという気持ちもあって,昨年はお客が疎らなところに積極的に顔を出していました.上述したのはあくまでも予定なので,今年もそうするかもしれません.

    それではまた.


  • Everything good.

    残暑の気配を感じる週末です.ちょうど,DISCOVERY SUMMIT TOKYO 2019 のタイムテーブルが発表されたので,もうそんな季節なんだなと.今年は11月15日(金)に例年と同じく六本木のグランドハイアット東京で開催されます.米国SAS社のSUMMITのページレイアウトが変わり,日本もそれに合わせたとのことで,大きいフォントが目立つページですね.日本的でない副題のようなものが付いているのはそのせいです.

    (これは2014年に日本で初めてDiscovery Summitがスタートしたときの私の講演の様子です.もう随分前ですが,緊張しました.写真はちょっとボカしてます.)

    データ探索がもたらすイノベーション
経験豊富で、優秀かつ好奇心旺盛な人々が一堂に会し、分析について話し合ったら、どんな化学反応が起こるのでしょうか?
    素晴らしいことが起こりそうです。

    などと書いてありますが,これは以下の英語を訳したものでしょう.
    Exploring Data, Inspiring Innovation
    What happens when you put accomplished, brilliant and curious people together in a comfortable environment to talk about analytics?
    Everything good.

    化学変化などとはどこにもないので,意訳なんでしょうね.私が訳すならば,
    データの探訪,イノベーションの閃き
    熟練した才気あふれる,そして知りたがりな人々が心地よい場に集い,アナリティクスについて語るとき,いったい何が起こるのだろう?
    万事いいことが起きるかも.

    最後の一文の訳は文脈が把握できないので難しいですね.isが略されているのは明らかですが,Is everything good?ならばレストランでウェイトレスが笑顔で聞いてくるあの表現になります.Everything is goodと考えて上記のようにしました.こういう日常的な言い回しは口癖のように使う人も多いので,本人しか意味がわからないことも多いですね.

    GSOMIA破棄でトランプ大統領が「我々は韓国で何が起きるのか見ることになるだろう」などと言ったのが話題になっています.(報道によっては「何が起きるか見てみよう.」)日本語のニュアンスですと,「目にもの見せてくれる」などと積極的なアクションを予期させます.ですが,原文を読むと”We’ll see what happens with South Korea.” [https://twitter.com/atrupar/status/1165103881875009538]なんですね.これは,ニュアンスでいうと様子見というか少なくとも積極的ではないですね.あまり関心がないことが伝わってきます.主語がIではなくてWeであることがポイントです.あくまでも傍観者ということでしょう.とはいえ,大統領のWeにはまた違った意味もあるので,どうなるかは私としてもWe will see.ですね.

    今年の目玉はなんと言ってもJMP Liveだと思います.午前中にJon Weiszさんが特別講演します.内容は調整中になっていますが,おそらくJMP Liveのデモがあると予想しています.日本で普及しますかね,JMP Live.オンプレにしがみつく傾向がある製造業ではなかなか難しいかと思います.どれだけメリットが活かせるか次第だと思うので,このSUMMITがアピールする良い機会になればいいですね.

    それと今年はJohn Sallさんが基調講演します.昨年はおいでにならなかったので,2年ぶりの来日になります.今タイトルを見ると「Import. Understand. Communicate.」になっているのでJMP Liveはこちらで紹介されるようですね.それで予定していた特別公演の内容が急遽変更になって調整中になった.などと舞台裏を想像しています.基調講演は英語で同時通訳付きですが,JMPの画面は英語です.それをSAS Japanの技術の方がJohn Sallさんの画面の操作に合わせて日本語版JMPで真似るのです.事前に練習するのだそうですが,毎回見ていて大変そうです.

    このページのレイアウト変更に伴って,コミッティーメンバーの写真も解像度の大きい写真が欲しいと言われておりました.顔出しはしない主義ではあったのですが,今更という感もあったので,今回は家の前で撮りました.今までの写真はヘルメットをかぶっていたので変な人にしか見えなかったと思いますが,少しはましに見えますでしょうか.

    タイムテーブルを見ながら,午後の口頭発表のお勧めなどを書くつもりだったのですが,時間が来てしまいましたので来週に回し,本日はこれにて.


  • アンケート調査

    SAS社主催の「アンケート調査解析セミナー」に参加してきました.私が日頃お世話になっている高橋先生と先生に大学院で指導を受けた川崎さんのご講演です.日科技連出版社から先日出版された『アンケートによる調査と仮想実験: 顧客満足度の把握と向上』を献本頂いていたので,それを読んで聴講したこともあってとても分かり易い内容でした.事前に聴講者を対象にデモアンケートをWEBでとってそのデータをデモ分析するというのは新しい試みです.今回の事前のアンケートにはもちろん回答しましたが,基本的にコーヒーショップにはいかないので答えようがありませんでした.コーヒーは好きですが,そもそも,あの手の店には入る気も起きません.行くならばということを想定してなんとか回答しました.分析結果の講評で,矛盾している回答者が何人かいて外れ値として除外したと言われていましたが,その中に私の回答も入っていたかもしれません.

    副題が「統計的アプローチを活用してアンケートデータから提案や改善等の計画を立てる方法を学ぶ」となっています.「選抜型多群主成分回帰分析」という統計手法の提案と,それに至るまでの実践的な内容もあり盛りだくさんな内容でした.最近のJMPer’s Meetingはキャンセル待ちが常態化していますが,今回も応募者殺到で急遽二回の開催となったそうです.実はこのセミナーと出版が重なったのはたまたまなのだそうです.セミナーの企画自身は今年の最初から始まっていたそうで,出版記念のセミナーは別途開催するそうです.まだ募集は始まってませんが,日にちはもう公表されているのでここに書きますけれど,9月26日です.

    セミナーの最後の質問に,高橋先生の推奨する5つのツールはどのようなソフトで描けばいいのかというのがありました.5つのツールとは,概念図,特性要因図,パス図,解析模型図,構造模型図のことで,このうち特性要因図だけはJMPで描けるとのお答えでした.私はこの手の図はソフトを使わないほうがむしろ良いと考えていますので,JMPの特性要因図を使ったことはありません.とはいえ,大昔からあった機能なので,存在は知っています.ブログ冒頭に示した「特性要因図」は分析メニューの「品質と工程」の下から二番目にあります.以前はIshikawaダイアグラムと呼んでいたと思うのですが,英語表記でもJMP14では「Diagram」になっているので,残念ながらJMPのメニューやレポートに出てくる日本人は一人減ってしまったようです.「タグチ配列」も「古典的な計画」に押しやられてそのうち消えそうですし,残るはAICくらいです.

    さて,一応これでも名前だけは経営企画なので,マーケティングは多少勉強しているのですが,アンケート調査は本当に難しいと思います.アンケート調査はマーケット調査の1つで,大別して定量調査と定性調査があるうちの定量調査になります.基本的にサービス改善くらいがせいぜいで,新商品企画などのイノベーションはインタビュー調査とか行動観察調査などの定性調査でないと難しいと考えています.技術的なデータ分析とは定量,定性の感覚が違っているのが面白いです.(マーケティングでは定性調査が格上の感覚です.)

    データの質が良くなければどんなに高度な手法を使っても意味がないことはいかなるデータ分析でも真理です.全くの私見を言わさせていただくと,アンケート調査で消費者の意見を集約しても,どこまでその結果が信頼できるものなのか不明なので使いどころに困るというのが本音です.医療統計などよりもアンケート調査の方が難しいと思うのは,アンケートでは回収率のような非サンプリングエラーを考量しなければならないからです.よく知られているように消費者の意見を集約するには回収率の方が重要で協力率とも呼ばれる所以です.アンケートで協力率を上げるのは至難の技です.下手に景品など提供すればそれこそデータに偏りが生じてしまいます.

    サンプリングエラーであれば,統計学の教えるところによって,サンプルサイズを大きくすれば良いのですが,対象が人間ですとそう単純な話では済まなくなります.人間は統計的イベントだけで揺らいでいるのではないことは,有名なマルセル・プルーストの質問表(Le questionnaire de Proust)に答えてみれば,いかに人間が時間的に不安定であるかを思い知るでしょう.あの幕末三舟の一人の泥舟も「今日はこう思ってますが,明日はまた違うことを思うかもしれません」とどこかで言ってたように記憶してます.

    実験データでも対象が時間的に不安定ですと,途端に困難になるように,一人の人間の一瞬を捉えたアンケート調査でも同じ状況です.統計学を頼みにばらつきを集約するにはかなりのサンプルサイズが必要です.アンケート調査の必要サンプルサイズは教科書通りでは,回答比率0.5(これがワーストケース)として信頼水準95%で精度を1%にとどめようと思うならば,10000人弱です.一般的な新聞のアンケート調査でもサンプルサイズが1000程度なので現実的にはありません.そこで得られた結果の精度を事後評価するようなことになるわけですが,なかなかこのアンケートはやっても意味がなかったとは言えないものです.そもそ平均人を対象にしてマーケティングが成立するのか,奥が深い問題です.

    サンプルサイズを力づくで大きくするWEB調査に注目が集まっているにはこのような背景があるわけです.手軽と言っても代行業者に頼むと,10問でサンプルサイズ100人が10万円くらいが相場でしょうか.10000人であればおそらく数百万円は必要です.これには上述した人間故のばらつきは考量していませんから,おそらくそれ以上の費用をかけなければ信頼できる結果は得られないように思います.

    本日は全くの駄文でしたが,研究課題が見つかりました.軽い気持ちで書き始めたのですが,深みにはまってきたので今日はここまでとします.

    それではまた.


  • 一つを残してあとは捨てろ

    先日は今年2回目のJMPer’s Meetingでした.前回は私自身が発表者でしたので緊張したこともあってあっという間でしたが,今回は後ろの席でのんびり拝聴させていただきました.ご講演はAGC株式会社の岡谷さんによる「改善・革新活動のためのEasy Data Science」というタイトルで,昨年のDiscovery Summitでのご発表内容を大幅に膨らませたものでした.




    製造現場の担当者とデータ分析の担当者とを繋ぐ仲介者としてのお立場から,実際のご苦労を交えて事例を紹介していただきました.「PSL回帰」とか「主成分分析」のようなどちらかというと高度な手法を多用されていたのは意外でした.わたしならば「PSL回帰」を使う状況ならば,他の手段で多重共線性を回避します.もちろん,対象とする技術分野の難しさ故からその必要があるのでしょうし,両方やってみての結論なのかもしれません.

    話は飛びますが,サックス奏者のジョン・コルトレーンがマウスピース選びに悩んで,ある日のことマイルス・デイビスに「どれがいいか聞いてくれ」と頼んだそうです.木管楽器をやる人ならばご存知のようにマウスピース選びは永遠のテーマです.わたしはテナーとソプラノをやることもあって,両方で7個は持っています.それに加えて,リードとそれをマウスピースに固定するリガチャーの組み合わせはおそらく数百通りになります.何故こうなってしまうかというと,マウスピースが良ければもっと良い音が出せるのではないかという思いに憑かれてしまうからです.練習そっちのけでマウスピース探しの旅に出てしまう,そういう生徒への戒めとして上記の話はわたしの先生から聞きました.その話の続きですが,そのときマイルスはコルトレーンにこういったそうです.「一つを残してあとは捨てろ.」要するにマウスピースであれこれ悩む暇があったら練習に時間をかけろ,とマイルスは言っているんです.(そのとき先生は,全くマウスピースやリードに拘らないのも良くない,要するにバランスが大切なんだとは言われていました.)

    閑話休題.モデリングでもこれと同じで,いろいろある変数を捨てきれずにいると多重共線性の影響は回避できません.少し事情は違うことは承知で,強引にマウスピースのアナロジーを続けるならば,これと思う変数を丹念に見ることに時間をかけます.とはいえ,これはと思う変数を見つけるのが先決です.そこで役立つのが「一変量の分布」です.岡谷さんのご講演でも「一変量の分布」で全ての変数のヒストグラムを描かれていましたが,わたしも「一変量の分布」では全ての変数を割り当てることをお勧めしています.

    その上で,できるだけ一画面にヒストグラムを納めるようにレイアウトします.例えば,サンプルファイルの「Bands Data.jmp」を使ってデモします.ポイントは赤三角から「表示オプション」のヒストグラム以外のチェックを外すことです.起動ウィンドウの右下の「ヒストグラムのみ」にチェックを入れてもいいですが「箱ひげ図」で外れ値の出現状況を見たいので初めはデフォルトでレポートを出し,スクロールしてそれを眺めます.その後に「分位点」と「要約統計量」を非表示にします.因みにこの例のように名義尺度の変数があれば「度数」もです.このときcontrolキーを押すと同じ尺度の変数には全て同じ設定が適用されます.「複数行に配置」してグラフサイズをドラッグして小さくします.このときも,controlキーは有効です.

    こうしてレイアウトしたのが冒頭の図で,13インチの画面にもこれだけのヒストグラムを並べることができます.もっと多くの変数をレイアウトする場合,タイトルバーのフォントサイズを下げて「積み重ねて表示」することもあります.最初は目的変数と説明変数との関係性が見たいので,この場合の特性である「印刷縞の有無」を先頭に持ってきています.棒をクリックすることで目的変数と関係が強い説明変数が浮かび上がってきます.その後でこれと狙いをつけた説明変数とそのほかの説明変数との関係を棒をクリック(あるいはドラッグ)して確認します.

    「一変量の分布」の有効性が分かったとしても,これだけでは「PLS回帰」よりも優先することの理由にはなっていません.それには手法の交渉力ということをお話ししなければならないのですが,続きはまた来週にします.

    それではまた.


  • いよいよ来週はDISCOVERY SUMMIT JAPAN 2017

    いよいよ来週はDISCOVERY SUMMIT JAPAN(DSJ)2017が開催されます.このところ週末になると天気が崩れるので当日の天気が気になりますが,このところ天気運には恵まれているので大丈夫ではないかと期待しています.何しろ先月の出版記念セミナーでは,前日まで東京では127年ぶり15日連続で10月に雨が降ったそうですが,当日の26日は良い天気に恵まれました.DSJでは私もポスターと口頭発表させていただくことになっていまして,先日発表資料を提出したところです.今回の発表は産業分野の皆様の手本となればとも思い,SAS社指定のテンプレートを使いました.本年のテーマカラーは緑のようですね.実は普段はこのようなテンプレートはできるだけ使わないようにしています.チャートジャンクならぬPPTジャンクとでもいいましょうか.必要ない情報は見るのに邪魔なだけでなく余白の美しさを台無しにするものです.某社のプレゼンでは毎ページに目立つ色とデザインで精神的なスローガンが入っていて,見ているだけで疲れてしまいました.


    DSJ 2017のテンプレートには下部中央にコピーライト表示が入っていて,デフォルトではこのようになっています.
    Copyright © 2017 SAS Institute Inc. All rights reserved.
    このコピーライト表示は各自で資料作成者の名前や(業務上の著作物は会社に帰属することになっている場合は)会社名などに差し替えます.学会の投稿論文のように印刷やWEB送信を前提とするものは基本的に著作権は学会に譲渡することが多いのですが,プレゼン資料の著作権までは譲渡しません.資料の著作権をSAS社に譲渡するとそれを社内で使うには著作権利用許諾が必要になってしまいます.

    ところでこのテンプレートのコーピーライト表示にはおかしいところがありますが,お分かりでしょうか.まず第一に,© はCopyrightの省略記号なので,両者を同時に表紙する必要はありません.ダブっているとおかしいので © またはCopyright だけを残すべきです.さらに.All rights reservedはブエノスアイレス条約に調印していない日本では意味(効力)がありませんから省くべきです.おそらくUS本社指定のテンプレートだからでしょうが,こちらに紹介されているように,米国でも既に実質的意味合いはないので,最近では表示しません.

    前にもお話ししたかもしれませんが,私は今年もSteering Committeeを拝命しているので,今年は「統計的問題解決入門」の紹介のポスターを景気付けに展示させていただくだけにして,自ら発表する予定はありませんでした.ところが,海外からエントリーで都合がつかなくなったという方が出て急遽その穴埋めに抜擢されたのです.常々,産業分野のJMPユーザーをもっと活発にしたいと考えていたので,この機会に来年のSUMMITへの発表をお誘いするようなお話をすることにしました.

    今年の米国でのSUMMITは先月St. Louisで開催されました.講演者数を比較すると米国が総勢72名(内4名は基調講演)に対し日本は26名(基調講演は2名)です.そもそも4日間に渡って開催されるという日本とは規模が違うイベントなので,講演者数が少ないのは当たり前ですが,講演内容を見ると日本では圧倒的に医薬関連の発表が多いのが特徴です.発表数は米国のおよそ2倍あるので,発表総数では三分の一近いことを考えると如何にアンバランスであることがわかります.当然それだけ産業分野からの発表は日本では少ないということです.また,開発拠点のある米国ではSAS社からの発表も多く,今年もあのDSDの考案者(の一人)のBradley Jonesさんも自ら発表されたようです.

    その他,米国の発表には色々とバラエティに富んでいるのも特徴的です.個人的に注目しているのは3人のUS Armyからの発表です.Army Sniper Munition Optimization: A Comprehensive Dispersion Response Analysis Using a Custom Split-Plot Design, Loglinear Variance and Graphical Analyses,というChristopher DrakeさんとDouglas Rayさんの発表ですが,要旨によれば,JMPを使って高性能ライフルのスナイパー弾の命中精度を改善するという事例です.FPSゲームをやっている人ならばammoといえばお分かりのように,こういうやつです.カスタム計画を使った予測モデルによるパラメータ最適化設計の事例で,得られた最適解をグラフビルダーなどで可視化してじっくりと考察されているようで,ぜひ詳しい内容が知りたく,SAS社に発表内容を問い合わせてみます.

    日本の発表にも興味深いものがありますので楽しみにしています.当日お会いできる方はポスターにお立ち寄りいただいて,ぜひ声をかけてください.参加できない方も後日になりますがこの場で報告しますのでお待ちいただければと思います.

    それではまた.


  • 「産業に生かすJMP」参加報告

    「産業に生かすJMP」と題したSAS社主催の事例セミナーに参加してきました.講演者のBill Worleyさんは化学畑の技術者としてのキャリアが長く,米国SAS社の前にはP&GやBASFにいらしたというキャリアをお持ちです.Technical Enablement Engineerという役職はアプリケーション・エンジニアのようなものなのでしょうか.化学者の立場からというサブタイトルもあってか,化学関連の会社からの参加者が多かったようです.当初はもっと化学寄りに専門的な内容かと思っていたのですが,JMPスターターの説明があったり,「エクセルからデータを持ってくる方法は三つあるけど,それらを知っているかい」という質問を皆さんに出されたりして,十分初心者でもフォローできる内容でした.因みに,この質問の答えはおわかりでしょうか?

    1.まずはデータをコピーアンドペーストすることです.ペーストのときに列名とともにペーストを指定するのを忘れずに.
    2.エクセルのJMPメニューを使う方法が二つ目の方法です.エクセルのレイアウトによっては環境設定の各種数値を調整することが必要となります.
    3.そして最後に「統計的問題解決入門」でも紹介したエクセルwizardです.

    それで知ったのですが,エクセルwizardは英語版ではEXCEL import wizardなんですね.エクセルwizardというとエクセル名人のような意味合いなので,なんか変だなとは思っていました.日本語版ではおそらく文字幅に起因する視認性を優先したのでしょう.漢字フォントを使う我々の場合,どうしてもフォントサイズが大きくなってしまいます.(余談ですが,万年筆のニブも日本製のものは外国製に比べて細くなっています.例えば,ペリカンのFはパイロットではM相当です.手帳に漢字を書くのにはペリカンのF(細字)では厳しいです.)

    英語が苦手な人でも今回のセミナーは逐次通訳付きでなので十分理解できるレベルでしたが,JMPの画面は英語版のままでした. John SallさんのSummitの講演などではSAS Japanの人が二画面あるうちの片面で日本語版の画面を出したりしていますが,操作をリアルタイムに真似しなければならず,シンクロさせるのに苦労さなっています.
    今回のセミナーで英語版のJMPの画面を見ると,いろいろな違いにあらためて気づきました.「統計的問題解決入門」でも「二変量の関係」は「Fit Y by X」であるとかを紹介していますが,なるほどと思ったのが,グラフビルダーのボタンです.

    ご存知のように設定パネルには左から「元に戻す」「やり直し」「終了」という三つのボタンが並んでいますが,これらは英語版では「Undo」「Start Over」「Done」となっています.正直にお話ししますと,今だにUndoするつもりで「やり直し」ボタンを押してしまうのですが,この点は英語表記の方がわかりやすいですね.
    JMPの表記に限ったことではないのですが,英語表記を知ってその正確な意味がわかるような例がたくさんあります.例えば,「拡張計画」は「Augment Design」です.拡張はAugmentの一つの形態であって,例えばaugment children’s performance などと言ったりします.日本語にない言葉なのでこれは仕方ないのかもしれません.

    セミナーの話に戻りますと,先ほどのエクセルwizardのところでは,10000行より多いデータで使うことを推奨されていたり,寄率与と自由度調整済み寄与率との差は小さい方が望ましいという説明ではその値は0.1%以下という値を示していたり,具体的な数字を出してくるあたりにBillさんが実務家であるという印象を受けました.具体的な数字についての質問は私もよく受けるのですが,これがなかなか難しいところです.多変量のデータ分析に経験がそれほど多くはない私がVIFはいくつ以下であればいいのかと聞かれても,ものの本にはということをお伝えするのがせいぜいです.一方で,多くの経験がある実験計画では,例えばモデル寄与率について聞かれれば,計測精度や実験環境にもよりますが,具体的な数字を出してお答えできます.

    一つ気になったのは,カスタム計画を作成する際に,実験数がリソースよりも多い場合に「if possible」(日本版では「必要な場合のみ」)を適用せよと言われていたことです.私はこれには反対です.「必要な場合のみ」はそのリスク(交絡)を知った上で最後の手段としてであれば「あり」ですが,とりあえず『RSM』で効果を仮定して実験数が多ければ「必要な場合」にするというのは,交絡がグシャグシャになって,わけがわからなくなる可能性大です.Billさんの経験からはそれでうまくいったこともあったのかもしれません.この点についてはご本人にメールで確認してみようと思っています.

    それではまた.