AI vs. 教科書が読めないこどもたち（その2）

覚え書き

09.16.202009.21.2018

先週の続きです．『AI vs. 教科書が読めないこどもたち』p73の表1-1は「10-20年後になくなる職業トップ25」というリストで，その第4位に「コンピューターを使ったデータの収集・加工・分析」があって．それを見た人からJMPを勉強しても無駄になるのか？と質問を受けました．日本人は本を読まなくなったとはいえ，売れている本の影響力はまだまだたいしたものだと思った次第です．

さて，短い答えを先に言うと，これは誤訳です．この表の出典は松尾豊「人工知能は人間を超えるか」角川EPUB選書とのことで，更にその原典は先週も引用しましたC.B.Frey and M.A.Osborne (2013), “THE FUTURE OF EMPLOYMENT: HOW SUSCEPTIBLE ARE JOBS TO COMPUTERISATION?” 　ということは『AI vs. 教科書が読めないこどもたち』にも明記されています．
この論文を読むのは長いのでやや骨が折れましたけれど，リストがどこになるかと探すとAppendix(p61)に，各種職業の将来コンピュータ化されるであろう予測確率が ‘0’ をコンピュータ化されない(not computerisable)，‘1’ をコンピュータされる(computerisable)として示されています．ここではコンピュータ化されにくい順に並べてあるので，第1位はレクリエーション療法士です．そして，例の表1-1の第4位に対応するのは699位のMathematical Techniciansであることがわかります．
日本ではTechnicianという言葉は馴染みはないかもしれませんが，米国では厳密にEngineerと区別されていて，わたしも米国赴任中は多くのTechniciansに大変お世話になりました．強いて訳せば技術者に対する技能者というところかもしれませんが，日本語の技能者には解釈はあっても定義はありませんのでTechnicianとそのまま理解しておいた方が無難です．これにMathematicalという限定がつくと，ここ
に書かれているような職業を指します．
1) Translate data into numbers, equations, flow charts, graphs, or other forms.
2) Confer with scientific or engineering personnel to plan projects.
即ち，
１．データを数値，数式，フローチャート，グラフなどのフォーマットに変換する．
２．プロジェクトの計画を練るために研究者や技術者と打ち合わせる．
のがMathematical Techniciansなのであって，それがどうして「コンピューターを使ったデータの収集・加工・分析」と訳されたのかは不明です．「データの収集・加工の作業者」くらいに訳すべきです．分析を含めるにしても定型的な分析業務くらいを考えるべきですね．
『AI vs. 教科書が読めないこどもたち』では「コンピュータを使ったデータの収集・加工・分析の仕事」をホワイトカラーと呼ばれてきた事務系の仕事としているので，おそらくビジネスデータをエクセルで集計したりグラフを書いたりしてまとめる類の仕事をイメージしているのでしょうか．これは引用元の誤訳を読んで著者が勘違いなされたように思います．このような仕事ならばRPA大流行ですから，AIに置き変わるのは既に始まっています．人間を駆逐するのには10年もかからないように思います．
従って，最初の質問に戻ると，「コンピューターを使ったデータの収集・加工・分析」はおそらく誤訳で「コンピューターを使ったデータの定型的な収集・加工」を意味しているであろうこと，その上でJMPを使うのであっても，エクセルに代表されるようなデータ集計，視覚化ソフトでもできるようなことをするならば状況は同じであり，JMPを使うならば，JMPならではのことに積極的に取り組んでいかなければならない，というのがわたしの考えです．JMPならではのことの一つに「統計的問題解決」があると考えていますが，我田引水でもあるのでこれについては後日にして，以下ではこの引用の問題点について考えてみます．
引用文献「人工知能は人間を超えるか」は読んだことはないのですが，Math Technisianの仕事を「コンピュータを使ったデータの収集・加工・分析の仕事」と訳すのは間違いです．それをチェックせずに書籍に引用掲載してしまったのは，この本が広く読まれているということを考えると残念です．このことは脇に置くとしても，そもそもC.B.Frey and M.A.Osborne (2013)を（このような形で）引用すべきでないと考えます．
C.B.Frey and M.A.Osborne (2013)は有名な論文なので方々で引用されています．例えば，内閣府の資料「産業社会・労働市場の未来の姿と求められる人材像」では「今後20年で,現在のアメリカの雇用者の47％が就く職業がコンピューター化により消滅する．」などと国民を煽っていますが，上述のC.B.Frey and M.A.Osborne (2013)のリストをコンピュータ化されやすい職業のリストとして切り取って掲載しています．このリストは先にも述べましたように，コンピュータ化されにくい順に並んでいるので，それをわざわざ逆にして示すのは少なくとも著者の意図するところではないでしょう．しかも，第12位のデータ入力作業員までは確率0.99で横並びです．因みに34位までは0.98となっていて，順位を議論する意味は全くありません．従って，C.B.Frey and M.A.Osborne (2013)をコンピュータ化される職業のランキングとして引用するのは不適切です．
そもそもMath Technisianの仕事がAIに駆逐されるかというと，かなり怪しいとわたしは考えています．オックスフォード大学の学者の論文であろうとも，中身を確認することが大切です．そうすればこのリストは次の手法で作成されていることがわかります．P33以降を読んでみると次のように書かれています．

First, together with a group of ml researchers,　we subjectively hand-labelled 70 occupations, assigning 1 if automatable,　and 0 if not.
Second, we use objective o∗net variables corresponding to the defined bottlenecks to computerisation.

ようするに，機械学習で分類する教師データはオックスフォードの研究者が自らの主観に基づいて作成したものなのです．その上で，O*netのデータベースにリストアップされている職業の特徴量の中でコンピュータ化におけるボトルネック（難所）と考えられるものをやはり主観的に選択しています．（p31のTable I参照）その上で，このデータをもとにして機械学習でモデルを作成し，それを他の職業に適用してコンピュータ化される確率を出しています．
技術系の例えをするならば，製品の合否を1,0判定した結果を教師データとして，合否に関係が深いと考えられる製品の特徴量（例えば，特定箇所の線幅とか特定工程の欠陥数であるとか）で名義ロジスティック回帰を実施し，そのモデルで製品の合否を（特徴量をもとに）予測するということをしているわけです．おそらくJMPでもできる処理です．
ですから，『統計的問題解決入門』でもお話ししましたように，得られたモデルの信頼性は現実に照らして確認しなければなりません．この論文で20年後に消滅すると予想された職業が本当に消滅していれば，このモデルが正しかったと判断できるわけですが，残念ながら未来の予測は確認実験をすることができません．
このようなケースはわたしたち（技術系の）仕事でも良くあるケースですが，こういうときは（ある意味危険を承知の上で）技術者の経験と常識を杖にするしかありません．この際，注意すべきことはこのリストにあるは「10年から20年後に残る仕事，なくなる仕事」ではないということです．その仕事がロボット化されて職人を駆逐するのでもなければ，技術の向上，文化習慣の変化によってその仕事が消滅するというのでもなく，その仕事は高い確率でコンピュータ化されると予測されているにすぎません．この意味ではAI化されるといったほうが正確です．WEBではこのことを誤って認識されている方がいましたので補足しておきます．
ところで，時計修理職人の仕事がAI化されると思いますか？その他にも，3位の「手縫いの仕立て屋」13位にもまた出てくる「時計の組立・調整工」はO*netの定義では「時計修理工」と区別されているようですが，いずれにせよAI化はむしろ難しい職業のように個人的には感じます．19位の「スポーツの審判員」なども微妙なところです．今でもビデオ判定などは一部のスポーツに導入されてはいますが，審判に要求されるのは視覚による判断だけではありません．テニスのコードバイオレーションは最近も物議を醸していますけれど，コード・オブ・コンダクトには9項目もあって，その中にはAI化が困難な項目もあります．Unsportsmanlike Conduct（スポーツマンシップに反する行為）などは主審の主観的要素も多分に影響されるといってよいでしょう．AIが審判すればプレーヤーがそれに従うとも思えません．最近このことは実証されたばかりです．そもそも，時計修理工の仕事にはFinger Dexterity（指先の器用さ）が必要とされていて，それはAI化のボトルネックの特性とされているにも関わらずリストの第6位にあるのはなぜでしょうか．
以上を踏まえると，この論文で作成されたモデルの信頼性は如何なものかとわたしは思うのです．コンピュータ化される職業のリストはオックスフォード大学の機械学習の研究者の主観的な主張が色濃く反映されたものです．その主張とは，結論でもあってそれはp40に書かれているように，コンピュータ化の流れに打ち勝つにはcreative and social intelligenceが重要だということです．このような主観で教師データを作成したならば，それによるモデルはその主観を数式で表現したものにすぎません．
そもそも『AI vs. 教科書が読めないこどもたち』では機械学習にネガティブな主張がなされています．東ロボくんの英語チームはディープラーニングを使っていたそうですが，既存手法よりもよい成果が得られられなかったとのことです．この失敗を「ディープラーニングの限界を目撃した瞬間」とまで言っています．因みに，ディープラーニングは機械学習の一つで「教師データなし」で，高速かつ低コストに精度良く予測できる可能性がある手法というだけのことです．p33には「機械学習で大切なのは特徴量をどう設計するかであって，それが現実世界をうまく反映していれば判定精度は上がりますが，そうでなければデータを撫養しても無駄」「人間の直感を頼りにすると，思い込みに惑わされることもあれば，意外な漏れもあります．」と正しく認識されているのにもかかわらず，機械学習の結果である「10-20年後になくなる職業トップ25」を主張の根拠の一つとして無批判に使ってしまっています．オックスフォードの研究者の論文というだけで」盲目的に信じてしまっている訳ではないと思いますが，人は見たいものを見るものですから，自分に都合の良い論説は信じてしまうものです．このことを自らの戒めとして再認識しました．良い本なのにこの点だけは残念に思います．
ところで，今回の記事のカテゴリーは「書評」ではなく「Stat Spotting」にしたのですが，それには訳があります．記事を書く機会に，読み返してみていくつか気が付いたことがあったからです．本日は長くなりましたので一旦筆を置き，続きはそのうち書こうとと思います．

それではまた．