過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

『JMPではじめるデータサイエンス』のサポートについて

JMPではじめるデータサイエンス

『JMPではじめるデータサイエンス』を上梓してちょうど一月経ちました.サポートファイルはオーム社からダウンロードできますので,ぜひ実際にJMPを操作しながら読んできただければありがたいです.PCを使いながら読むことを意識し,そのために本書では図番を使わないという専門書では珍しい書き方,レイアウトを採っています.あの図番というのは紙面を有効に埋めるための出版側の都合で,読者の立場からは目があっちこっち行かさせてただ読み辛いのです.目が上から下へ流れるようにレイアウトするのは紙の書籍では大変でしたが,オーム社に頑張っていただきました.

今回も出版記念講演をSAS社の後援で開催する予定ですので,その際はぜひおいで下さい.日時については未定ですが,年内には確定するのでこのブログでお知らせします.前回は非公開で実際にJMPを操作してもらう実習形式のセミナーも別途実施しましたが,今回も実施するかも知れません.非公開とするかも含めてまだ未定ですが,ブログコメントで参加したい旨お知らせいただければ別途ご連絡いたします.なお,本書についてのご質問あれば,『JMPではじめる統計的問題解決入門』ともども,このブログのコメントでお願いいたします.コメントを非公開とする設定を間違えてしまい,少し前までコメントが届かないようになっていましたが,修正しました.

通常はこのブログで書籍について書くことはありませんが,本日は,さっそく購入してくださった方々がこのブログを覗きにおいでになるタイミングということもあって,今一度執筆の経緯などをお話ししたいと思います.前著『JMPではじめる統計的問題解決入門』を書いたのは,実験計画,特にカスタム計画を使った事例を指導する際に,何回も同じ説明を繰り返すのが面倒なので,「ここに書いてあるように...」と言えば済むような本が欲しかったからです.もちろん,JMPで実験計画することの楽しみを他のJMPユーザーと共有したいとの思いもありましたけれど,半分は私の趣味で書いたようなところもあります.二度と本を書くようなこともないだろうと,色々詰め込み過ぎたかなと反省もしています.

当初はいきなり第三講から始まって,今の第五講は二つに分割しており,しかも最後にビッグデータに関するもう一講を加えた五講からなる構成でした.これに対し,オーム社からいきなり実験計画を始めるのでは売れないからと言われて,JMPの導入と既存データからの知見の取得を解説する二講を新たに執筆し,ページ数の制約から二つの講を圧縮して第五講としてまとめ,ビックデータに関する講は割愛しました.このような経緯で,最初の二講とその後の繋がりが良くないというJMP初心者には優しくないかも知れません.このことは気にはなっていたので,オーム社からJMPの入門書をという話をいただいた際に,二つ返事した次第です.

実は『JMPではじめるデータサイエンス』は『JMPではじめるデータ分析10日間』という仮題で執筆していました.当初は1日目で統計の基本を解説していたのですが,最初から統計を出すと読者が引いてしまうからとの編集者の意見に従い,それは内容をカットして補講に回しました.更に,10日目はJMPによるレポート作成に当てていましたが「あとがき」にも書いたように,JMP Liveの発表があったばかりだったのでこの部分は割愛しました.残りを『データ分析8日間』としてもよかったのですが,なんとなく7という数字に惹かれ,JMPを初めて操作するという人以外は1日目から開始して構いませんと言い訳をつけて,1日目のJMP超入門を0日目と呼びかえたのです.そういうわけで,結局7日間となったのが本書です.

『データ分析』が『データサイエンス』になったのは,オーム社の営業さんが気に入ったからなのです.自分でも候補に挙げておきながら,こういうのも変なのですが,データサイエンスという言葉が誤解されないかを今でも心配しています.データサイエンスという言葉がビッグデータや機械学習との繋がりで狭くとられることがあるため,勘違いして購入する方もいらっしゃるかもしれないことを懸念したからです.このため,本文中では本書におけるデータサイエンスの定義を明確にし,Amazonの紹介文も私が書きました.

本書では、幅広い分野の様々なレベルの人に対応するように、データサイエンスをデータから正しい行動を導くためのワークフローとして広く捉えています。7日間でそのワークフローを辿るように構成していますが、全くのJMP初心者のために0日目を設けました。ここでJMPのGUIと基本操作を覚えつつ、JMPによるデータ分析の特徴を学び、データ可視化の手法を習得することを目指します。

因みに,字数制限があるとかで編集が入ってしまい,一部で少し日本語が変になっています.『統計的問題解決入門』の紹介文は私が書いたのではないのですが,実はあれも日本語が変です.ずっと気にはなっているのですが,簡単には修正できないとのことで,変なままです.

変といえば,冒頭の画像に間違いがあるのがわかりますか.この画像は今でもAmazonのページで表紙画像の下にある「この画像を表示」をクリックすると出てきます.答えは,JMPくんのスキーの絵の下のinteractionのスペルが間違っているということです.単純なコピペミスだったのですが,本当に表紙の印刷前日くらいに気づいてなんとか書籍発行には修正が間に合ったという冷や汗ものの出来事でした.(この画像は印刷前の表紙データのようです.)

さて,サイエンスとは日本語では科学と訳されます.徳川慶喜の側近として有名な西周先生が訳されたのですが,Wikiにも載っているように科挙の学問という静的な知識としての性質を意味しています.この西先生は,演繹や帰納といった抽象的な英語の概念を日本語に訳してくださったかたです.西先生のおかげで今の私たちは日本語で推論が学べるのです.とはいえ,Scienceという英語の本来の意味は少しニュアンスが異なっていて,Scienceの語源を辿れば,そこにはラテン語の「知っている」という動的な意味があるのです.ですから,Feynman先生が言われているように,サイエンスという知識体系を獲得すること,あるいはそのための手法もサイエンスなので,データサイエンスもデータから知識を得る行為,手法全般を指すのが本来です.

本書のデータサイエンスでは,JMP Proに実装されているような本格的な機械学習を習得したい方々には期待はずれかも知れません.ですが「モデルのあてはめ」の『標準最小二乗』のような罰則なしモデリングを知らずして『Dantzig選択器』や『Lasso』のような罰則付きモデリングは使いこなせるはずがありません.

本日はこれにて.

統計的問題解決研究所

コメント