過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

パーティションの上位版

JMP

最近日曜日になると忙しくなる感じです.というわけで今日も簡単に.

Summitのイベントの一つに「Networking with Committee Members」というのがあって,JMPの「推しの機能」を紹介することになってます.この企画私が提案したのですが,その際に頭にあったのが「パーティション」でした.このことについては,以前お話しした通り.「パーティション」を10分以内に紹介するビデオを事前に作成しなければならないので,その準備をはじめました.ここが気に入っているという点を列挙して,それだけでは不親切なので,弱点についてもお話ししようかと考えてます.

弱点はご存じの通りモデル適合度が低いということ.徹底的に分岐してオーバーフィッティングさせたとしても,多変量だとモデリング手法としてはつらいものがあります.だから,私はデータを把握するためのツールと割り切ってるんですけどね.

この弱点を補う上位版の手法がJMP Proに実装されている,「ブートストラップ森」と「ブースティングツリー」です.どちらもアンサンブル学習の手法です.この二つから見ると「パーティション」は弱い学習器です.それを並列にしたのが「ブートストラップ森」で縦列というかシーケンシャルに実行するのが「ブースティングツリー」です.制限時間が10分なので,どこまでお話しできるかわかりませんが,これらについても簡単に触れる予定にしています.

機械学習では,それぞれランダムフォレスト,勾配ブースティングなどと呼ばれていますが,それにしてもJMPのコマンド名は独特ですね.おそらく日本語に訳しているからでしょうけど,英語ではBootstrap Forest,Boosted Treeです.何故フォレストを森と訳したのか..日系人みたいです.

個人的には,ブースティングツリーのほうがいい感触持ってます.この三つのパーティション,ブートストラップ森,ブースティングツリーをそれぞれ,PT,BF,BTと書いて比較してみると,モデル適合度からは,PT<BF<BTという感じ.BFとBTの違いはあまり感じませんけど.処理時間も,PT<BF<BTの順で,過学習しやすいのはBF<BT<PTの順かな?外れ値の影響も同じ順番です.但し,使いやすさだけはBF<BT<PTです.そもそも無印JMPには「パーティション」しかありませんから.時間があれば,これらの比較についてもお話ししたいんだけど,10分では無理ですね..

4人のメンバーの収録ビデオを流した後に,視聴者と自由に意見交換するセッションもあるようなので,お時間あれば見て頂いて質問頂ければありがたいです.そういえば,翌日の発表の収録ビデオも作らなければ...発表のほうは啓蒙的な内容にしました.技術的な詳細はすべて省く代わりにプレゼントしては派手なことをやってみようかと企んでします.ヒントは流行のVTuberです.どこまでうまくできるかな..

それでは.

統計的問題解決研究所

コメント