過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

条件振りはなぜいけないか

覚え書き
昨日は東京ビッグサイトで開催されていたSMICON JAPANにいってきました.半導体製造関連の展示会として40年以上も続いている歴史のある展示会で,少し前までは幕張メッセが会場だったのですが,2014年からビッグサイトに場所を移しています.社会人になって以来ずっと半導体に関わってきたこともあって,SEMICONには毎年参加しているのでわかるのですが,イベントとしてはだんだんと寂れてきているのを肌で感じます.ビッグデータ関連の展示会のほうが出展社も参加者もぜんぜん多いように思うのですが,公式の来場者数を見る限りではそれほど大きな違いはありませんから気のせいかもしれません.とはいっても,往年の賑わいとは比べるまでもなく,今年はWORLD OF IoTというエリアが設けられていたりと,関係者の方々もご苦労されているようです.

今年は本来の情報収集にあわせて,半導体製造分野でDOEがどれだけ普及しているのか古くからお世話になっているいくつかの装置メーカーの技術統括者の方々に聞いてみました.乱暴を承知で要約すると「目先の仕事に追われてそれどころではない」ということのようです.サンプリングが足りませんが,医薬メーカーとの温度差は確かにあるようです.展示会なので基本は営業さんが多いのですが,説明要員として展示会に駆り出される技術者も多いので,彼・彼女らともお話しましたが,その中で上司が実験計画の結果に不安を感じているので結局すべての実験をやらざるを得ないという同情すべき方がいました.
実験計画をするにしてもそれが完全実施要因計画に限定されるのであれば,そのメリットは損なわれるのはもちろん,結局膨大な実験数を低減するために無理な因子の絞り込みをしてしまうという弊害があります.そして何よりも問題なのは単なる条件振りとして考えずに計画を立てた結果として,それが完全実施要因計画になっているという場合,その計画で得られたデータから統計モデルを得ることが考慮されていないことが多いのです.
例えば,水準の設定が興味によってなされているため,それらの間隔が等しくなかったり,特定の因子の影響が無い状況を「0」としていたり,温度の水準の一つが「室温」となっていたりします.この措置が正しい場合もあるので質的因子で計画を作ることが良くないというわけではありませんし,質的因子で統計モデルを作るのであれば話はまた別です.
しかし,問題なのはすべての条件を実験しないとその結果の妥当性が判断できないという上司の頭の中です.その発想はすべての組み合わせの中からベストを選べばそれが最適解であろうという単純なものです.確かにこのような格子点解は連続量空間での最適解の近似になってはいます.
しかしながら,それは単特性のような単純な場合に限ります.多目的では状況が全く異なってくる可能性があります.今,簡単のため二つの特性Y1とY2とがこんな感じで 1因子Xで支配されている場合を考えてみます.
DraggedImage.be841667054e4ff1b3b984ac0e5a0840.png
それぞれ最小化,最大化するとしてたまたま10間隔で実験していれば,このような質的な計画でも解としてX=80, X=10という正しい解は得られます.ですが,Y2のダブルピークの構造は質的な因子の扱いでは見えにくいことが問題です.場合によっては全く見えません.ですから,2特性を考慮した場合の最適解を求めようとすれば,例えば,二つの解の平均をとって45とするくらいのものでしょう.こんな単純な場合だからできることではありますが,その上司がこの解で満足するのであれば絶望的です.この状況でしかるべき連続量の実験空間で実験計画を組み,その結果から統計モデルを得たならば,「満足度の最大化」で解が求まります.
DraggedImage.3367f90fe65048a78ea09d03fb723cb9.png
ここでは二つの特性の重みは等しいとしていますが,その解は,X=82.3と先ほどの最適解もどきとは大きな乖離があることが理解できるはずです.

もしも身近に「条件振り→ベストをチョイス」というKKD手法でなければ安心できないという上司がいるならばこの記事を見せてください.どのような反応をするのか興味があります.
それではまた.

統計的問題解決研究所

コメント