過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

バッグプロットとは

JMP

夜中に何かの物音でたたき起こされました.家の中を点検したものの,どこから何の音がしたのかもわからず.原因不明のまま床に就くと,今度は外から無線放送が入りました.大雨洪水警報発令とか言ってるのだと思うけど,雨音で良く聞こえません.ああ,そうか,さきほどの物音はiPhoneにアラームメッセージでも入ったんだろうと思ってまた寝入りました.

ということで調子がよろしくないので,今日はダウンロードだけしておいた文献でも読むことにします.先日のセミナーで,JMP15から実装されたBagplotを紹介したところ,このグラフはJMPオリジナルなのか?と聞かれて答えられなかったのです.おそらくオリジナルではないとは思ったものの,他ではあまり耳にしないのも事実です.

そこで調べたのが,The Bagplot: A Bivariate Boxplotという文献です.筆頭著者のPeter Rousseeuwさんが,どうやらBagplotの考案者のようです.Bagplotはいわゆる二次元の箱ひげ図なわけですが,ランク,即ち順位の拡張概念としてのlocation depthを可視化するグラフとして考案されました.location depthは箱ひげ図のTukeyが提案したのでTukey depthとも呼ばれています.この概念,言葉では説明がむずかしいんだけど,1次元で説明すると,昇順ランクと降順ランクの小さいほうの値を取るのがdepthです.この定義を,より高い次元に拡張したものがTukey depthで,データの多次元空間の一番深いところにあるのがTukeyのdepth medianです.

Bagplotは単変量の箱ひげ図の二変量への一般化になっているので,二変量データセットに対しては,depth medianは最大のdepthに位置していて,JMPでは*で示されてます.depth medianを含むn / 2個のデータ領域がグラフの名前になっている「bag」で,JMPでは濃い青で示されています.このbagをdepth medianを中心にして3倍に拡大したのが「フェンス」ですが,これは箱ひげ図のフェンスと同様に表示されてません.フェンスよりdepthが小さいデータ点で囲まれた領域とbagとの間はLoopと呼ばれ,JMPでは薄い青色に塗られてます.そして,フェンスの外側のデータが外れ値として示されている訳です.

というわけで,Bagplotは,データの広がりを見るのに適してます.点も表示することで,散布図としての相関や歪度も可視化できます.上述の論文には,散布図行列とする例が載っていたので,JMPで書いてみました.データはIris.jmpです.

Bagplotは上述したように点を表示すると理解しやすいです.

この文献には,これより先に考案されたRelplotとQuelplotも紹介されてます.二次元の箱ひげ図としてはこちらの方が先です.Relplotは二段階の確率楕円でデータの広がりを表現したグラフで,Quelplotは,それに楕円の両軸交差線マーカーが加わっています.

Peter Rousseeuwさんはベルギーの統計学者で,専門はロバスト統計学です.弟子のHubertsさん(M推定のHuberとは別の人)と共著で最深回帰推定量を提案しています.外れ値を研究したTukeyが,それを多変量に拡張していたことはこの論文で知りました.彼の洞察力には今更ながら感心します.Bagplot,気に入ったら使ってみてください.

それではまた.

統計的問題解決研究所

コメント