過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

一つを残してあとは捨てろ

覚え書き

先日は今年2回目のJMPer’s Meetingでした.前回は私自身が発表者でしたので緊張したこともあってあっという間でしたが,今回は後ろの席でのんびり拝聴させていただきました.ご講演はAGC株式会社の岡谷さんによる「改善・革新活動のためのEasy Data Science」というタイトルで,昨年のDiscovery Summitでのご発表内容を大幅に膨らませたものでした.




製造現場の担当者とデータ分析の担当者とを繋ぐ仲介者としてのお立場から,実際のご苦労を交えて事例を紹介していただきました.「PSL回帰」とか「主成分分析」のようなどちらかというと高度な手法を多用されていたのは意外でした.わたしならば「PSL回帰」を使う状況ならば,他の手段で多重共線性を回避します.もちろん,対象とする技術分野の難しさ故からその必要があるのでしょうし,両方やってみての結論なのかもしれません.

話は飛びますが,サックス奏者のジョン・コルトレーンがマウスピース選びに悩んで,ある日のことマイルス・デイビスに「どれがいいか聞いてくれ」と頼んだそうです.木管楽器をやる人ならばご存知のようにマウスピース選びは永遠のテーマです.わたしはテナーとソプラノをやることもあって,両方で7個は持っています.それに加えて,リードとそれをマウスピースに固定するリガチャーの組み合わせはおそらく数百通りになります.何故こうなってしまうかというと,マウスピースが良ければもっと良い音が出せるのではないかという思いに憑かれてしまうからです.練習そっちのけでマウスピース探しの旅に出てしまう,そういう生徒への戒めとして上記の話はわたしの先生から聞きました.その話の続きですが,そのときマイルスはコルトレーンにこういったそうです.「一つを残してあとは捨てろ.」要するにマウスピースであれこれ悩む暇があったら練習に時間をかけろ,とマイルスは言っているんです.(そのとき先生は,全くマウスピースやリードに拘らないのも良くない,要するにバランスが大切なんだとは言われていました.)

閑話休題.モデリングでもこれと同じで,いろいろある変数を捨てきれずにいると多重共線性の影響は回避できません.少し事情は違うことは承知で,強引にマウスピースのアナロジーを続けるならば,これと思う変数を丹念に見ることに時間をかけます.とはいえ,これはと思う変数を見つけるのが先決です.そこで役立つのが「一変量の分布」です.岡谷さんのご講演でも「一変量の分布」で全ての変数のヒストグラムを描かれていましたが,わたしも「一変量の分布」では全ての変数を割り当てることをお勧めしています.

その上で,できるだけ一画面にヒストグラムを納めるようにレイアウトします.例えば,サンプルファイルの「Bands Data.jmp」を使ってデモします.ポイントは赤三角から「表示オプション」のヒストグラム以外のチェックを外すことです.起動ウィンドウの右下の「ヒストグラムのみ」にチェックを入れてもいいですが「箱ひげ図」で外れ値の出現状況を見たいので初めはデフォルトでレポートを出し,スクロールしてそれを眺めます.その後に「分位点」と「要約統計量」を非表示にします.因みにこの例のように名義尺度の変数があれば「度数」もです.このときcontrolキーを押すと同じ尺度の変数には全て同じ設定が適用されます.「複数行に配置」してグラフサイズをドラッグして小さくします.このときも,controlキーは有効です.

こうしてレイアウトしたのが冒頭の図で,13インチの画面にもこれだけのヒストグラムを並べることができます.もっと多くの変数をレイアウトする場合,タイトルバーのフォントサイズを下げて「積み重ねて表示」することもあります.最初は目的変数と説明変数との関係性が見たいので,この場合の特性である「印刷縞の有無」を先頭に持ってきています.棒をクリックすることで目的変数と関係が強い説明変数が浮かび上がってきます.その後でこれと狙いをつけた説明変数とそのほかの説明変数との関係を棒をクリック(あるいはドラッグ)して確認します.

「一変量の分布」の有効性が分かったとしても,これだけでは「PLS回帰」よりも優先することの理由にはなっていません.それには手法の交渉力ということをお話ししなければならないのですが,続きはまた来週にします.

それではまた.

統計的問題解決研究所

コメント