過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

JMPとIoT

覚え書き

先日のセミナーでお配りしたPDFの印刷物について補足します.プレゼンソフトのkeynoteから40枚のうちの8枚を抜粋したごく簡単なものですが,なんとかA4一枚に納めたかったので文字サイズや色を修正してオリジナル版を作成しました.一枚の資料にしたかったのは紙をめくる音が好きでないということもありますが,アニメーションを多用しているので,PDFにするとわけが分からなくなってしまうページや写真などの著作物を引用したページを間引くと配布できるようなページがあまり残らないという事情がありました.比較的重要なページを選んで作り直しましたが,特に後半の第二部はあれだけでは説明不足かもしれません.実際の問題解決では綺麗ごとでは済まされないという状況があり,そのためには統計学の枠組みを超えることも必要です.このことだけは是非とも皆様に知って頂きたかったので近いうちにこのブログでもう一度お話しさせてください.

一つ重要なことを思い出しました.配布資料には間違いが入れてありますとお話ししたきり,時間配分の都合で第二部の後半を急いだために正解をお伝えするのを忘れてしまいました.間違いを入れたのは掟破りの問題解決のページです.破る掟は,Principle,Standard,Protocol,Rule,Regulationの五つですが,そのうちのStandardは配布資料に書いてある「現実の再定義」ではなくて,Principleと同じく「理想状態の再定義」が正解です.Standardは「基準」ですから,理想状態を定義する数値です.基準を変えることで問題を解決するという荒技がここで意味していることです.

ちなみにこのStandardは基準と訳していますが,MCDAにおける多基準の基準はCriteriaとなります.本書では「基準」という漢字を採用しましたが,Standardの基準と区別して多規準としたほうがよかったかもしれません.この両者の違いを知るには,この文献が参考になります. 以上のことはセミナーに参加されなかった方々には何を言っているのかわからないと思いますが,上述したようにいずれこのブログで紹介しますので,そのときまでお待いただければありがたいです.

さて,前置きが長くなりましたが,先日IoT関連のコンファレンスに参加してきましたのでJMPに絡めて考えてみます.統計的問題解決ではIoTデータを直接扱うことはあまりないかもしれませんが,分析結果としてデータから因果関係が抽出するという点では,本書でも解説した量産データ分析と変わりはありません.もちろん,IoTデータはビッグデータなので,JMPで分析するには少々敷居が高いかもしれませんが,JMPでもかなりのことができます.IoTデータが入手できるならばやってみるべきです.

やるならば,CPUは64bitであることと搭載メモリを可能な限り増やすことが必須となります.32bit版のJMPでは扱えるメモリは最大2GBまでなので,データのファイルサイズとして500MBを一つの目安とし,それ以上のデータを扱う場合は64bit版のJMPまたはJMP Proを使って2GB以上をアサインすることを推奨されています.意外と知られていないのが,WINDOWSの場合シングルユーザーライセンスのJMPは32bit版であるということで,64bit版を使うには年間ライセンスが必要ということです.一方,Macでは64bitマシン(Core 2 Duo以降)では確かJMP12からはシングルユーザーライセンスでも64bit版JMPのはずです.今年のWWDC(世界開発者会議)でAppleは今後はApp Storeでは32bitアプリケーションのサポートを終了(最新のOSであるHigh Sierraが最後)していく方針を発表し,JMPのようなStore以外で購入するソフトについても64bit化することを推奨していますが,JMPはいち早くこの要求に応えたようです.個人でビッグデータを扱うならばMac版JMPを使うのが良いということになります.

そもそも対話的な操作を特徴とするJMPにとって,ビッグデータ分析は分析者が介在しにくいという意味で相性は良くないように思います.例えば,普段何気なく実行している「多変量の相関」なども変数の数が増えると指数関数的に負荷が増大し,出力結果の認性も著しく低下します.個々のデータをクリックして,様々な処理を実施することができるJMPのインターフェイスの宿命とも言えます.

とはいえ,一昨年のDSJ2016ではJohn Sallさんが基調講演でJMPでビッグデータを分析して見せてくれました.SAS社としてもSASとJMPとの棲み分けがあるようで,ビッグデータはSASのテリトリーというのが暗黙の了解事項のようで(私の推測です),JMP事業部も積極的にビッグデータ分析をアピールしてはいませんが,JMP10あたりからビッグデータを意識した機能が加わってきています.上述した64bitにより扱えるデータサイズがほぼ無制限になったことや,JMP13には新機能の一つに「仮想結合」が加わりました.JMPのデータはメモリ内に展開されますが,リンクを張るような機能だと思うのですが,これによって大きなテーブルの結合でメモリ不足を回避することができます.その他,サンプルサイズの大きいデータを扱う際に知っておいて便利なのは「工程のスクリーニング」です.この機能は説明変数が多いときに使います.挙動が似ている変数同士をクラスタリングしてくれます.同じようなことは「多変量の相関>」でもできますが,この機能を使えばクラスタリングした結果を「モデルのあてはめ」に持っていけるので分析フローを重要視するならば,大変重宝します.その他,「テキストエクスプローラ」などもビッグデータを意識した機能ですね.JMP13では残念ながら英語にしか対応していませんが,JMP14では部分的に日本語対応するとも聞いていますので,それまではMeCab(日本語形態素解析システム)などを使えばいろいろ面白いことができるように思ってはいるのですが,なかなか時間が取れないでいます.どなたか試してみませんか?
それではまた.

統計的問題解決研究所

コメント