ようやく「JMPで始める統計的データ分析」を脱稿しました.これから書籍としての仮組みをして頂き,内容のチェックや図版のトレースに取りかかることになります.それまではまだ間がありますので,本書とも関係あることを書いていこうと思います.
わたしは「データサイエンスの推進」を業務としていますが,本書はその際の教科書となることを意識して書きました.データサイエンスの定義にもいろいろありますが,データをサイエンスの枠組みで扱うための具体的な手法と捉えるのが理解しやすいと思います.この意味で,統計的問題解決はデータサイエンスに含まれていることになります.とはいえ,本書では意識してデータサイエンスという言葉は避けました.それはデータサイエンティストという別のものを意味する言葉と混同して欲しくなかったからです.
実は本書の初期草稿ではビッグデータに関する第7章がありました.(ページ数の制約から割愛せざるをえませんでしたが,ゆくゆくはこのブログ等で紹介したいと考えています.)そこで書いたことでもあるのですが,改めて申し上げておきますと,データサイエンティストをデータサイエンスを実施するものという広い意味に解釈するのは間違いです.データを用いてビジネスにおける意思決定をする(あるいは意思決定者のサポートをする)ものという本来の定義の範囲内にとどめておくべきです.ですから,データサイエンスを使う職業には技術者・研究者とは別にデータサイエンティストがあるということなのです.統計的問題解決の立場からはデータサイエンティストは違う世界の人であると考えてください.技術者・研究者との違いはその目的がビジネス課題に直結しているということ以外にも,その手法により大きな違いがあります.
具体的に言うと,統計的問題解決では実験計画のような能動的データ取得をベースとするのに対し,データサイエンティストが対象とするデータはビッグデータのような受動的データです.受動的データというのは誤解を招くかもしれませんが,あるがままのデータを使うという意味で受動的といっています.具体的には「実験」ではなく「観察」によるデータということです.もちろん,サイエンスの枠組みでは実験データだけでなく観察データを扱うことも可能ですし,更にはデータサイエンティストでもABテストと呼ばれるような実験データを扱うこともあります.ABテストとはアメリカの大統領選挙でオバマ陣営がWEBページの最適化に採用したことで有名になった手法です.ようするに画面Aと画面Bという二つのパターンをランダムに表示して,どちらがより期待する効果を出せるかを検証する手法で,実験計画とは言えないものですがデータ取得に能動的な要素が加わっていることは間違いありません.学会論文レベルでは実験計画を採用した事例も見たことはありますが,多くは対象が制御困難であるという理由で通常の実験計画は実施しようと思っても困難です.重要なことですが,どちらのアプローチが優れているということではありません.この点については回を改めて書こうと思っています.
脱線してしまいましたが,このようにデータサイエンスとは単なる手法なので重要なのはその媒体,即ち人材であることを忘れてはなりません.従って,「データサイエンスの普及」とは具体的にはデータサイエンスを知って,理解して,使いこなす人材の育成ということになります.この人材育成という言葉は昨今の企業経営ではキーワードになっています.試しに「人材育成」で検索をかけてみてください.人材育成に課題を抱えていると認識している企業が多いことが見て取れます.
わたしは「人材育成」という言葉はお歳暮化しやすいと感じています.お歳暮化している言葉の代表格が本書でも取り上げた「イノベーション」です.例えば,上司から部下へ「イノベーション」というお歳暮が届きます.(日本では上司から部下へというのは珍しいですけれど.)上司は「イノベーション」の中身については確認しないで,「イノベーション」とのし紙がかかった箱を手渡します.部下はそれを恭しく受け取りますが,のし紙に「イノベーション」と書いてあるのを見るだけで満足して中を確認もせずに机にしまいこんでしまいます.この状況が言葉のお歳暮化なのです.(わたしの造語ですから他では使わないほうが良いでしょう.)
「人材育成」の必要性を感じている経営者はその中身を考えて指示を出しているでしょうか.おそらくそんなケースは稀で,「人材育成」の指示を受けた者がその中身を熟考して実施しなければならない状況がほとんどだと思います.少し長くなってしまいましたので,わたしの考えている「人材育成」を次回でご紹介したいと思います.
コメント