過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

M&Mとカイ二乗検定

統計学

M&M(正確にはM&M’s)というチョコレート菓子があります.日本のマーブルチョコレートのような砂糖でコーティングされたチョコです.最近はこんなパッケージらしい.

シングルパック

マーブルチョコは1961年発祥というから随分と古くからあるわけだけど,M&Mは1941年に特許を取得したというからそれよりも更に歴史のあるお菓子です.とはいえ,このM&Mの考案者もスペイン内戦中のイギリス兵が砂糖コーティングされたチョコのSmartiesを食べるのを見てそれを真似したようです.こちらは今はNestleが販売しているようですが,Wikiによれば1937年発祥だから確かにこれが元祖なのかも.

こんなどうでもいいことを知っているのは,この記事を読んだからです.今,書籍に掲載する練習問題を作成しているんだけど,カイ二乗検定の問題をいろいろと思案していて辿り着きました.SASのRick WicklinさんがM&Mの色の配分について興味を持って統計分析したという記事なんですけど,色々興味深いことが書かれてます.

Wicklinさんは,Distinguished Researcher in Computational Statisticsという肩書きなのでJMPには関わってないようです.面白いのは,メーカーの裏付けは取れていないようですが,SASはM&M’sの最大の企業消費者であると主張していること.なんでも,ワークセッションでM&Mを気に入ったSASの共同設立者でありCEOのグッドナイトが「M&M&M’s Wednesday」というのを開始したそうです.今でも続いていると思いますけど,SASオフィスには入れ物が設置されていて,週に1回補充されているそうです.これを持ってSASが従業員満足度が高い会社として知られているのかは定かではありませんが.

この記事によれば,二つの工場で色の配分(赤とか青とかの割合)が異なっているそうなので,これを題材にしてカイ二乗検定の練習問題が作れそうです.カイ二乗検定には,独立性の検定とか適合度の検定とかあって,混乱している人も多いようなので,ここら辺の使い分けを学べる練習問題を作りたいのだけど.リアルにデータを集めるのができないので,仮想データになってしまうのが迫力に欠けるかな.Wicklinさんは,この実験のために一週間に712個(約1.5ポンド)のチョコを観測(食べた?)そうです.おいおい,食べ過ぎだろう.

そういえば,日本の教科書では記述されているのはあまり見たことないけど,等質性の検定なんてのもあります.英語では比率の等質性と書かれているテキストがほとんどだけど,日本語は省略が好きだから等質性の検定とだけ呼ばれてます.この三つの使い分けは,目的の違いです.対立仮説の立て方,つまり帰無仮説の立て方が違うわけですが,どうもスッキリ解説している本が少ないようです.

ここで解説しておくと,適合度の検定はカテゴリ変数の比率を既知の定数を比較します.だからあくまでも1サンプルです.一方,等質性の検定では,複数のグループ間のカテゴリ変数の比率を比較します.そして,独立性の検定では二つのカテゴリ変数間の関係性の有無を検証します.データ形式では,適合度の検定は1Wayで,等質性の検定と独立性の検定では2Wayになります.あと間違いやすいのがサンプルの数です.適合度の検定と独立性の検定では,サンプルの数は1です.等質性の検定ではサンプルの数は2以上が必要です.

といっても,検定のロジックはどれも同じだから,t検定との使い分けを知っておく方が混乱は少ないかも.重要なのは,t値と違ってカイ二乗値は注目している統計量ではないということ.従って,カイ二乗値を用いた区間推定というのはしません.それと,カイ二乗値は一つ以上のカテゴリの分布に関する情報だから,帰無仮説や対立仮説は文章で書くしかないということです.検定の適用条件も少し違うけど,グループの観測値が5以上あればOKとだけ覚えておけば実用上は問題ないはずです.

ブログではあまり深入りできないは申し訳ないけど,本日はここらへんで.それでは.

統計的問題解決研究所

コメント