過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

JMPとビッグデータ

覚え書き
今週は分析手法の交渉力についてお話ししようと思っていたのですが,この説明には図を描いた方が良いので少しお時間を頂いて次回に回させてください.と言いますのも,某社から実験計画の話をして欲しいとお招きを受けていまして,本日はその準備に追われて時間がないのです.今年初めのJMPer’s Meetingと同じ話でいいと言われてはいるのですが,講演で使ったスライドは基本的に残っていないので,同じ話は二度できないのです.もちろん,大元のスライドは保存しているので,聴講者に合わせて毎回それらを組み替えれば良いのですが,色々と手を加えたくなるのが常です.

今回も実験計画の必要性を訴えるという立場なので,ビッグデータの話は外せないところです.JMPer’s Meetingでは「ビッグデータを知るための3つの問い」として3つのビッグデータによる分析の弱点をお話しました.上図の「効果の要約」はわたしがセミナーでよくやるネタです.みなさんもミーティングなどでデモしてみてください.できれば相手に自ら操作してもらう方が効果的です.データはなんでもいいので実験計画のデータを開いて,モデリングします.因みにわたしはサンプルデータの「Coffee Data.jmp」をよく使います.この実験計画には「場所」と言うブロック因子が入っていて,プロファイルでは非表示になっているので少々注意が必要ですので,機会あれば詳細にやり方を紹介しようと思います.

ポイントは実験計画のモデルから「シミュレータ」を使ってビッグデータを実際にシミュレートすることです.このとき対話して条件を決めていくのが重要です.この因子は正規分布だけれど,特性に重要で厳重に管理されているから標準偏差はワンオーダー小さいはずだとか,この因子は適当に管理されているし確率分布も一様分布なはずだとね...などと言いながら相手に操作してもらいます.もちろん,このときビッグデータの質が落ちるように誘導するのがコツです.意図的に誘導しなくとも実際に質は低いはずなので騙す必要はありませんし,ほとんどの人は素直にビッグデータの質を落としてくれます.自らが納得した工程条件ですから,そこから生成されるデータには自信があるはずです.そう錯覚してもらうことが重要です.このとき「シミュレータ」レポートの「応答」バーにある「ランダム誤差の追加」を忘れないようにしてください.


そのデータをモデリングしてもらうとこのような結果が得られます.

ほとんどの場合,このように予想通りの効果は得られないはずです.この例では極端なことをしたので「豆の量」という実験計画で一番影響が大きいと判明した因子がなんと消えてしまっています.これは当たり前のことで,工程は改善のために人の手が加わっているので,それを反映しただけのデータでは正しくシステムの構造を理解する目的には向かないのです.例えそれがビッグだとしてもです.サンプルサイズ無限大でも母集団を正しく反映した真のモデルは得られません.ランダムサンプリングではないので当然です.このような当たり前のことを理解している人でも「ビッグデータ」が枕詞になった途端にごまかされてしまいます.

もちろん,ビッグデータ分析で現状を改善し,利益をもたらすこともあるでしょうから,それが無意味だとは思っていません.上記のデモでもわかるように,ビッグデータは基本的にas isのデータなので,イノベーションには向かないのです.このためには,ここで何回も言っていることですが,ビッグデータで得られた知見を実験計画に繋げるべきだと思うのです.


JMPをビッグデータ分析につかうことにも,もちろん異論はありません.ビッグデータ向けの機能がJMP12以降で実装されてきていますし,JMP Proが登場した経緯も明らかにビッグデータ対応を意識していると思います.聞くところによると,ジョン・ソールさんはビッグデータ分析がお好きだということですし,米国をはじめとしたユーザー企業からの要望にも答えなければならないでしょうから,今後もビッグデータ向けに有効な機能が加わっていくことでしょう.SAS社としては,ビッグデータを扱うならばJMP Proを使ってねということなのでしょうけれど.


とはいえ,いささか暴言を承知で私見を述べると,JMPをビッグデータ分析だけに使うのは広辞苑を漬物の重しにしか使わないようなものです.たしかに十分に使えるけれど,それ専用のソフトがいくらでもあるのでバズワードに惑わされず,JMPは実験計画という得意分野を中心に使っていくべきと思っています.日本企業の基礎体力が落ちているのでバズワードと言う風疹のようなものにかかってしまうのではないか,そんなふうにも思っています.いいすぎでしょうか?


それではまた.今夜は徹夜覚悟です.

統計的問題解決研究所

コメント