過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

ノンパラメトリック検定に悩む

覚え書き

このところ真夏にしては温度の低い日が続き,その後でいきなり暑くなったりしていて,自律神経も乱れがちな今日この頃ですが,皆様いかがお過ごしでしょうか.私はといえば,引き続き『JMPではじめる*****』の執筆で悩んでいます.一連の分析フローの中で,今までの経験を踏まえて,重要だと思うことに重点的にページ配分するという方針を立てているのですが,そうするとどうしても内容がアンバランスになってしまいます.本章の性格からそれでいいのかと考えています.例えばノンパラメトリック検定です.

私が持っているJMPの本は古いのばかりですが,例えば,田久,林,小島(2002)『JMPによる統計解析入門』オーム社,では検定は第8章に50ページほど解説されています.サンプルサイズがnとmに一般化したt値が導出されていたり,分散分析の説明でも平方和を実際に計算したりて,かなり統計学に深く入れ込んだ内容です.統計学を学ぶにも良い本だと思いますが,例題がマーケティング分野に偏っているので,モデリングや予測についてはほとんど出てこないのが残念です.第二版は2006年に出版されていますが,いずれにしてもJMP操作については内容が古い(第一版ではなんとJMP5が使用されています)ので,今回私が新たにJMPの本を出すことになった次第です.今出ている本に拘らず自分の思う通りに書いていいと言われているので,自由度は高いものの300ページ余の限られたスペースにどのようなコンテンツを積み込むかが悩みの種です.同様な本である内田,平野(2011)『JMPによるデータ分析』,東京図書,では検定が30ページほどであっさりと解説されているのですが,私が思い通りに書くと,これに比べるとかなり濃くなってしまいます.


田久,林,小島(2002)では,検定の章の中に分散分析と回帰分析があって両方で16ページも割いているのが特徴です.検定から回帰分析に持っていくのは統計学としては自然だと思いますが,JMPの場合は「モデルのあてはめ」から検定に持っていくのがわかりやすいのではないでしょうか.更に,ノンパラメトリックと独立性の検定にも17ページ割いています,内田先生の本でも,パラメトリックな検定はごくあっさりと触れていますが,色々な検定手法を解説しようとするとこのようになるのは避けられません.


そこで思うのですが,ノンパラメトリック検定(以下ノンパラ検定)って本に書くべきでしょうか?もちろん,分布に正規性がある場合も含めてノンパラ検定を勧める先生もいるのは知ってます.ノンパラ検定は自然観察や社会心理学のようなサンプルサイズを大きくすることが困難な実験データを対象として発達してきたという経緯があります.目安として,2サンプルt検定では,それぞれのサンプルサイズが15以上であれば正規性の前提を満たさなくとも大きな影響はないとされていますが,この程度のデータさえも集めるのに一苦労する分野はたくさんあって,このような状況でも使えるのがノンパラメトリック検定の長所だというのは理解できます.とはいえ,サンプルサイズを大きくするのが可能であるのに,こういった手法を最初とから使う前提で,サンプルサイズを絞ることは避けるべきなのはもちろんです.


ノンパラ検定が技術分野でどれだけ使われているかはわかりませんが,Wilcoxonの符号順位和検定の開発者のFrank Wilcoxonは,(今は吸収されて名前は変わってますが)当時American Cyanamid(アメリカの代表的な洗剤Pine-Solのメーカーです.私もCMをよく見ました.)という化学メーカーに在職していたので,おそらく化学実験のデータに対してノンパラ検定が必要だったのかもしれません.因みに,ノンパラ検定の発祥は応用分野にあると思いきや,例えば,Wilcoxon検定と同等のMann–Whitney U testのHenry Berthold Mannは大学の数学の教授なので,発祥は純粋な数理にもあるようです.


これは私見ですが,特に技術分野では分布に正規性がなければ,その理由を探して対処することを優先すべきと思うのです.仮に対処できれば安心して普通の検定を実施できます.誤解のないよういい強調しておくと,正規性がない場合にも適用できる万能な手法だからといって考えなしにノンパラに走るのが問題なのだと言っています.実際このようなケースにも過去何回か遭遇しました.この私見は経験に基づくものなので根拠もあるけれど,そのことをパブリッシュして良いものかというのが悩みです.


使い所を理解して使うのが良いのはもちろんなので,そういう手法がJMPのどこに格納されているのかには言及しようと思っています.上記の問題点を理解した上で,それらを色々と試してみるのは大賛成です.因みに,一元配置分析の赤三角の「ノンパラメトリック」に様々なノンパラ検定手法がまとめられていますが,私自身は滅多に使いません.正規性を前提として変数選択するという意味では「モデルのあてはめ」でも同じ注意が必要なはずです.検定だけ正規性をうるさくチェックするのもどうなんだろうと思うのですが,いかがなもんでしょう.


それではまた.

統計的問題解決研究所

コメント