階層型クラスター分析で面内分布を分類する

JMP

11.24.201711.19.2020

先日のサミットでの発表では，階層型クラスター分析を用いて特性の面内分布のクラスタリングをデモしました．懇親会の場でまさにこういうことがやりたかったという方に声をかけていただきまして，どうやるのかという質問に後日このブログに掲載しますとお答えしました．もともと出版記念セミナーとサミットとでデモした内容は本書の編集時点ででカットしたものですが，応用範囲は広いのでしまっておくのは残念に思っていました．ともに実験計画の外側のデータを有効に使うために考案した手法です．

「統計的問題解決入門」第5講の例題はデータ取得前に通常は外側に配置する因子を内側に配置してカスタム計画に強引に持っていくという手法ですが，今回のデモでは既に取得されたデータを外側直交に配置して，統計モデルを作成しています．このデータ構造故に面内分布のクラスタリングが可能であることに注意してください．以下に手順を示しますので，ぜひ自分のデータで実習してみて下さい．まずデータ構造として列名で「因子１」「因子２」「因子３」．．．という特性の設計因子に続いて「特性@測定点１」「特性@測定点２」「特性@測定点３」のようなものを考えてみます．このデータに測定点の座標「X」「Y」という新たな量的因子を導入して積み重ねの構造にします．そうすると，「因子１」「因子２」「因子３」．．．「X」「Y」「特性」というような列の並びになります．これらに加えて通常は「Lot」とか「パーツ番号」あるいは「製品名」とかのその列名も加わっていることが多いはずです．

このデータに対して，「分析＞クラスター分析＞階層型クラスター分析」を実施します．設定パネルで左下のプルダウンで「通常のデータ」となっているのを「積み重ねたデータ」に変更して，ここが重要ですが「空間的な指標の計算」にチェックを入れます．「Y，列」には「特性」を「属性のID」には「X」「Y」を指定し，「対象のID」にはその面内分布をユニークに指定するために必要な列をいれます．例えば，「Lot」ですとか「製品名」ですとか．実験計画のデータであれば「実験番号」というのでもいいです．そうしたら『OK』です．

「空間的な指標」という設定パネルが出てきます．ここのパラメータの設定にはハフ変換という画像処理を知っておく必要がありますが，とりあえずデフォルトで『OK』してください．そしてレポートの赤三角から「クラスターの要約」でデモで示したクラスタリング結果が面内マップで表示されます．

言葉だけですと分かりにくいかもしれませんが，一連の操作は上述の通りなので難しいことはありません．場合によって難しいかもしれないのは上述したハフ変換の設定を最適化する必要がある場合でしょうか．これらのパラメータを調節することで特定の欠陥パターンを効果的に分類・抽出できますが，その設定によって大幅に処理時間が変わってきます．ある程度の経験が必要なので言葉では説明が困難なのですが，具体的なデータを提示していただければアドバイスできると思います．私の本職は画像処理なのでここらへんの勘所はあります．
ご質問してくださったかたがこの記事をお読みになることを願いつつ，それでは今週はこれで．