• タグ別アーカイブ: 統計学
  • また抗体検査の話

    一段と世の中が騒がしくなってきましたね.そんな中で菅,今日もブログだけは平常運転でいってみたいと思います.そうはいっても,特に書くこともないので,先週に引き続き,時事ネタを強引にJMPと紐付けてるという恒例のチャレンジをしてみます.先週は,横須賀市のコロナ抗体検査の結果の解釈に,統計的でもないのに「統計的に」という枕詞をつけるなと文句を言いました.そもそも「統計的に」という言葉をつける言説には,騙されるなという警告の意味があると解釈しています.さて,最近は,様々な自治体で同じ試みが実施されているようです.数日前のニュースでは宇都宮市でも無症状者を対象に抗体検査を実施したようです.

    こちらがその記事です.これによれば,742人中3人の陽性者が出たとのことです.この場合も,2290人を無作為抽出してはいるものの,応じたのは742人ですからそのうちの1/3です.やはり,結果としては無作為ではなく,なんらかのバイアスがかかってしまっていると疑えますが,そのことは今日は脇に置いておきます.引っかかったのは,記事のこの部分です.


    以下引用
    この時点の感染率は0.40%だが、統計学的に精度の高い数字に補正すると1.23%になるとしている。6月1日時点の同市人口(51万8610人)に換算すると感染者数は推定6378人。「第1波」とされる時期に市が把握していた陽性者23人の277倍に当たるという。
    引用ここまで

    「統計学的に精度の高い数字に補正すると」という部分に注目してください.これどういう意味でしょうか.そこで先週と同じように,「一変量の分布」で信頼区間を求めてみます.(普段は英語のUIを使うことが多く,裏で分析途中のテーブルが大量に開いている状態で,日本語UIに切り替えるのが面倒なのでそのままですいません.)
    上限は1.18%ですから,精度の高いという1.23%と異なってます.この信頼区間はそこにも書いてあるように,スコア信頼区間,日本ではWilsonのスコア信頼区間と呼ばれる二項分布から計算される信頼区間です.

    おそらく,記事にある「統計学的に精度の高い数字」は信頼区間とは関係ないところからきているのか,それとも異なる統計量なのか?気になったので,他にもある信頼区間を求めてみることにしました.残念ながら,JMPでは「一変量の分布」プラットフォームで出力される信頼区間は限定的なので,Pythonを使ってみます.といってもプログラムを書く必要はなく,
    from statsmodels.stats.proportion import proportion_confint
    で簡単に実装できます.
    proportion_confint(count, nobs, alpha=0.05, method=’normal’)の引数のmethodのパラメータはデフォルトではいわゆるWald法による信頼区間を与える「normal」ですが,その他に次の種類が用意されています.
    • normal : asymptotic normal approximation
    • agresti_coull : Agresti-Coull interval
    • beta : Clopper-Pearson interval based on Beta distribution
    • wilson : Wilson Score interval
    • jeffreys : Jeffreys Bayesian Interval
    • binom_test : experimental, inversion of binom_test


    検証の結果から言いますと,おそらく1.23%という上限値はAgresti-Coullの信頼区間ではないかと予想できました.Agresti-Coullの信頼区間はWaldの信頼区間を修正したものですけど,サンプルサイズが大きいときは大差ないと認識していました.興味ある方は,どうぞガチの統計論文ですが,こちらをお読みください. 確かに値は異なりますが,統計学的に精度が高いというのは,全くのミスリーディングですね.統計学学的により精度の高い信頼区間と言うことはできるかもしれませんが,そもそも95%の信頼区間の上限値ですから,1.23%という値に意味を持たせてはいけません.

    因みに,日本では,Agresti-Coullと英語表記のまま書かれることが多いのですが,Agrestiの方はカテゴリカルデータ分析の大家であるフロリダ大学のアラン・アグレスティ先生で,Coullの方は先生のもとで当時Dr.だった現在はハーバード大学で生物統計学の教授のブレント・クール先生です.Wikiなんかではコウルと訳されていますし,有名なイギリスのCoulle Quartet は日本ではカウル弦楽四重奏団と呼んでいたりと混乱していますが,少なくとも人名ではクールと読むのが普通です.ですから,アグレスティ-コール信頼区間と呼ぶべきだと思うのですが...

    閑話休題.JMPではAgresti-Coull信頼区間は,私の知る限りでは直接出力できませんが,Agresti-Coull検定として,実験計画メニューの「計画の診断>標本サイズ/検出力」で『1標本割合』を選択すると登場します.デフォルトでは「方法」が『近似Agresti-Coull検定の正確検出力計算』となっているはずです.この手法で,今回の宇都宮市の結果を評価してみます.少なくとも0.4%と1%の違いが検出できなければ結論が無意味ですから,割合の仮説値を0.01として,検出力と標本サイズの関係を示したのが冒頭に示したグラフです.(結局,日本語UIに変更しました.)これによれば,0.8を得るための標本サイズは1700人程度でしょうか.全然少ないですね.逆に742人では検出力は0.25程度です.統計的に信頼できる結果ではないと言うことです.お金と時間の無駄だったとまでは言いませんが,やるのであれば政府主導でもう少し大規模に実施することが必要かと思います.個人的には,学校などである程度強制的に検査できなければバイアスの影響が気にはなるところです.

    それでは,本日はこれにて失礼します


  • 紅茶とインフルエンザ再び

    ここのところ冷え込んできましたね.先週もインフルエンザの話をしたばかりですが,今年は例年より流行期入りが早いということです.全国に約5000ある医療機関からのインフルエンザ患者の報告数が定点モニタリングされていて,その平均が1を超えたときが流行期入りの目安です.厚生労働省によれば,都道府県ごとに集計すると,11月17日時点で,31都道県が流行期入りしています.こうなると加速度的に患者数が増えていきます.今年はラグビーのワールドカップが開催されたりして,訪日外国人が多かったことが例年よりも早い流行の原因とみられています.

    インフルエンザ過去10年間との比較グラフ(11/29更新)を見ると確かに今年は35週あたりから患者数が増えているようです.黄色い線なので目立たないのですが2009年に新型インフルエンザのパンデミックがあったことをすっかり忘れてました.それにしても,エクセルでグラフ描くのやめてもらいたいですね.とにかく見にくいし,そもそも年単位でグラフを書いているのもセンスを疑います.30週くらいを起点に描いて頂いた方が見やすいです.可視化のグラフは見てもらう立場に立って描くという基本ができてないです.

    因みに,この定点のインフルエンザ報告数nをもとに全国のインフルエンザ患者数が推計されているのですが,昨シーズンから従来の推計方法が変更されています.定点の医療施設数を5000とすると,従来は「n/5000×全医療施設の施設数」で推計されていたのですが,「n/定点医療施設の外来患者延数 ×全医療施設の外来患者延数」になりました.5000ある定点観測の施設はおそらく大きい病院が多いでしょうから,患者の集中を補正するという当たり前の補正です.このため,以前の結果と比較するには,従来の推計値に0.66という係数をかける必要があります.なんで今頃という感がありますが,お役人の統計リテラシーは例の毎月勤労統計でもよくわかったように,データを扱う側が注意しなければなりません.

    前回,紅茶はインフルエンザ予防に効果あり,という元ネタは同じ日本紅茶協会や三井農林のTweetについて,一部で疑問の声が上がり,ちょっとした炎上になったとお話ししました.一部の方々は,特にいくつかの間違ったグラフを指摘されています.これに便乗したWEBメディア(J-CASTニュース)[https://www.j-cast.com/2019/11/09372207.html?p=all]が,三井農林に取材して担当者から,誤解を招いたとして「今後は反省を生かしたような発信をしていきたい」と言質を取っていたりします.ようするに「紅茶でインフルエンザ予防できると言うつもりはなかった」らしいのですが,いまだに元ネタのグラフはWEB上で掲載されたままです.紅茶市場が復調 “抗インフルエンザ活性”報道で特需、“タピオカミルクティー”も追い風にということなので,メーカーとしても利益優先で,メディアも適当にあしらわれてしまったのでしょう.本来は,このような私たちの生活に関わる様々な嘘や間違い,問題点を指摘するのがメディアの役目として期待したいところです.大手新聞社には全く期待していないので,このようなWEBメディアはTwitterを徘徊してネタ探しをしているだけでなく,もっと頑張ってもらいたいのですけれど.

    もしかしたら昨年のブログでも引用したかもしれませんが,疑惑のグラフはここで見ることができます.確かに,一般消費者向けの視覚化のグラフとしては色々問題ありそうです.例えば,1ページ目のグラフは,よく見ると縦軸が対数です.そのことは間違いではないにしても,比較対象としてビタミンCや乳酸菌を選択して,それをグラフにしたがために対数軸にせざるを得なかったのかもしれませんが,実験センスがないです.そうする必要があったのかも疑問です.

    この資料の他のグラフにも,ネットでは色々と問題点が指摘されていますが,私は最後の10ページ目のグラフを見て,おやっと思いました,それというのも,このグラフの引用元を原著を読んでいるので,このようなグラフは掲載されていることを知っているからです.さて,このグラフはどうして出てきたのかというと,原著ではインフルエンザのA型とB型とが区別されたデータも載っているので,それをもとにして描かれたものと思われます.インフルエンザの予防効果ですから,区別しないで比較した方が素直なはずです.原著ではカイ二乗検定で有意性が示されていますが,インフルエンザの型で区別していません.

    カイ二乗検定 はJMPでは分割表分析から実施できます.そのためには処置変数と結果変数を「二変量の関係」のそれぞれ『説明変数』と『目的変数』とに設定してレポートを出力します.赤三角の「検定」でカイ二乗検定の結果が得られるわけですが,この場合のような2×2分割表ではデフォルトの「尤度比」と「Pearson」という二種類のp値に加えて「Fisherの正確検定」の「片側検定」「両側検定」のp値も表示されます.結果から言うと,インフルエンザの型を区別しないで比較した場合,いずれのp値でも0.05以下となります.

    この結果から,紅茶うがいの有無のグループ間でのインフルエンザ罹患は均質ではないと解釈できます.この状況をグラフにしたのが冒頭の図です.

    ところが,三井農林の資料にあるグラフのようにインフルエンザの型別に検定をかけるとこのように帰無仮説が棄却できないのです.こちらはA型の結果です.(B型の方は実施してません.)

    確かに罹患総数で比較すると5%有意なので原著論文には間違いはありません.ところが,インフルエンザの型で区別すると有意性がなくなってしまうのです.おそらく,このために原著では型ごとにデータを取りながらも,検定はインフルエンザ罹患総数で実施したのでしょう.この事情を無視して作成した三井農林の資料に掲載されたグラフは間違いではないでしょうか.グラフの見た目だけでは型ごとに比較した方が差があるように見えることも関係しているかもしれません.

    上記は10分ほどで分析したので間違いがあるかもしれません.みなさんもJMPで検定してみてください.間違いあればご指摘を.

    それではまた.


  • 久々に本を読む

    このところ本を読む時間が取れないでいるですが,ちょうど今書いている本で統計学の初歩を書く必要が出てきたので,昨今はどういう切り口が好まれるのか参考にしようと,「高橋洋一(2018)『統計学超入門』,あさ出版」を読んでみました.統計学の初歩の初歩をこれ以上は噛み砕けないほどに懇切丁寧に解説したというだけあって,確かに易しく書かれてい流ようです.数式をあまり使わずに書かれた,読めばなんとなくわかった気にさせてくれる本は「ごまかし」だと言い切っているところに好感を持って読み始めたのですが...

    数式を意識して避けているので,確かにズバリ数式は出てこないのですが,この手の本によくある言葉で数式もどきを示しているので,何が狙いかわかりません.順列や組み合わせ,あるいは標準偏差や正規分布といった既知の数学や統計学の繰り返しにも疲れてしまいます.超入門を読むのは向学心ある社会人のはずですが,今どき平均値や標準偏差を知らない人が本を読むとは思えません.

    せっかくなのでブログねたに書評を書こうと思っていたのですが,読み進めていくうちに,色々と首をかしげる点が目に付きます.例えば,P65で正規分布を前提としてグラフの形状を説明しているのですが,グラフの頂点を中央値と呼ぶのは,少なくとも初心者が読む本では間違いを招きかねません.確かに正規分布では最頻値(頂点)は中央にくるわけですが.それと,中心極限定理の説明,間違ってますよね?そんなこんなで時間をかけて読む価値はないと判断し,最後まで10分で目を通した程度なので書評は差し控えます.

    著者が冒頭で白状しているように,編集者に口述筆記させた原稿を修正して書いたそうなので,クオリティが低いのは仕方ないのかもしれません.何しろ東大の数学科出身で統数研の非常勤研究をした経歴をお持ちの方なので,こんなはずはないと思いたいです.池上さんの本といいメディアに露出している有名人の書いた本は要注意ですね.統計学を解説した1章から4章まで100ページ足らずの本ですから,このスペースで統計学を解説することの難しさを改めて思い知った次第です.それに比べて今のところの予定では,統計学のために割り当てられるスペースは20ページほどしかありません.ここに統計学を詰め込もうとするのは無謀なのかもしれません.あくまでもJMPの本なのでしかtないですね.ユーザーが補足的に学べるような内容にしたいなとは考えているので,書ける範囲で書くつもりです.

    この本で一番得たところは,TVの視聴率調査が6900世帯を対象に行われているという記述でした.私はセミナーで視聴率調査の話をするのですが,そのとき関東地区で600世帯と説明していました.もしかしたら間違えているかもしれないと,調べたら,確かにビデオリサーチは1997年から関東地区の600世帯,約1800人を対象としていたのは間違いないようです.それが2016年に関東地区で900世帯(因みに関西,名古屋の2地区で600世帯,それ以外の地区は200世帯)に増えたようです.何れにしても日本の5800万世帯のサンプリングとしては小さい割合であることに変わりはありませんが,セミナーで間違ったことを言ってしまったようです.

    対象世帯数を増やすだけでなく,録画機を使ったタイムシフトなどの視聴方法の多様化や単身世帯の増加という環境の変化に対応したサンプリングに改良することで,予測精度を向上させたいそうです.これらのPM調査だけでなく,他の調査方法も開発しているとか.PMっていうのはPeople Meterの略で,米国で開発された調査世帯のテレビに設置する計測器のことです.調べたら,昔の記事がありました.
    個人メータ視聴率調査システム実験に入る[https://www.videor.co.jp/digestplus/tv/2017/06/2062.html]

    忙しい最中にこういう本に当たるとがっかりしますが,気を取り直してこれから「谷本雄治(2018)『テントウムシ大作戦』,汐文社」を読みます.

    それではまた.


  • ノンパラメトリック検定に悩む

    このところ真夏にしては温度の低い日が続き,その後でいきなり暑くなったりしていて,自律神経も乱れがちな今日この頃ですが,皆様いかがお過ごしでしょうか.私はといえば,引き続き『JMPではじめる*****』の執筆で悩んでいます.一連の分析フローの中で,今までの経験を踏まえて,重要だと思うことに重点的にページ配分するという方針を立てているのですが,そうするとどうしても内容がアンバランスになってしまいます.本章の性格からそれでいいのかと考えています.例えばノンパラメトリック検定です.

    私が持っているJMPの本は古いのばかりですが,例えば,田久,林,小島(2002)『JMPによる統計解析入門』オーム社,では検定は第8章に50ページほど解説されています.サンプルサイズがnとmに一般化したt値が導出されていたり,分散分析の説明でも平方和を実際に計算したりて,かなり統計学に深く入れ込んだ内容です.統計学を学ぶにも良い本だと思いますが,例題がマーケティング分野に偏っているので,モデリングや予測についてはほとんど出てこないのが残念です.第二版は2006年に出版されていますが,いずれにしてもJMP操作については内容が古い(第一版ではなんとJMP5が使用されています)ので,今回私が新たにJMPの本を出すことになった次第です.今出ている本に拘らず自分の思う通りに書いていいと言われているので,自由度は高いものの300ページ余の限られたスペースにどのようなコンテンツを積み込むかが悩みの種です.同様な本である内田,平野(2011)『JMPによるデータ分析』,東京図書,では検定が30ページほどであっさりと解説されているのですが,私が思い通りに書くと,これに比べるとかなり濃くなってしまいます.


    田久,林,小島(2002)では,検定の章の中に分散分析と回帰分析があって両方で16ページも割いているのが特徴です.検定から回帰分析に持っていくのは統計学としては自然だと思いますが,JMPの場合は「モデルのあてはめ」から検定に持っていくのがわかりやすいのではないでしょうか.更に,ノンパラメトリックと独立性の検定にも17ページ割いています,内田先生の本でも,パラメトリックな検定はごくあっさりと触れていますが,色々な検定手法を解説しようとするとこのようになるのは避けられません.


    そこで思うのですが,ノンパラメトリック検定(以下ノンパラ検定)って本に書くべきでしょうか?もちろん,分布に正規性がある場合も含めてノンパラ検定を勧める先生もいるのは知ってます.ノンパラ検定は自然観察や社会心理学のようなサンプルサイズを大きくすることが困難な実験データを対象として発達してきたという経緯があります.目安として,2サンプルt検定では,それぞれのサンプルサイズが15以上であれば正規性の前提を満たさなくとも大きな影響はないとされていますが,この程度のデータさえも集めるのに一苦労する分野はたくさんあって,このような状況でも使えるのがノンパラメトリック検定の長所だというのは理解できます.とはいえ,サンプルサイズを大きくするのが可能であるのに,こういった手法を最初とから使う前提で,サンプルサイズを絞ることは避けるべきなのはもちろんです.


    ノンパラ検定が技術分野でどれだけ使われているかはわかりませんが,Wilcoxonの符号順位和検定の開発者のFrank Wilcoxonは,(今は吸収されて名前は変わってますが)当時American Cyanamid(アメリカの代表的な洗剤Pine-Solのメーカーです.私もCMをよく見ました.)という化学メーカーに在職していたので,おそらく化学実験のデータに対してノンパラ検定が必要だったのかもしれません.因みに,ノンパラ検定の発祥は応用分野にあると思いきや,例えば,Wilcoxon検定と同等のMann–Whitney U testのHenry Berthold Mannは大学の数学の教授なので,発祥は純粋な数理にもあるようです.


    これは私見ですが,特に技術分野では分布に正規性がなければ,その理由を探して対処することを優先すべきと思うのです.仮に対処できれば安心して普通の検定を実施できます.誤解のないよういい強調しておくと,正規性がない場合にも適用できる万能な手法だからといって考えなしにノンパラに走るのが問題なのだと言っています.実際このようなケースにも過去何回か遭遇しました.この私見は経験に基づくものなので根拠もあるけれど,そのことをパブリッシュして良いものかというのが悩みです.


    使い所を理解して使うのが良いのはもちろんなので,そういう手法がJMPのどこに格納されているのかには言及しようと思っています.上記の問題点を理解した上で,それらを色々と試してみるのは大賛成です.因みに,一元配置分析の赤三角の「ノンパラメトリック」に様々なノンパラ検定手法がまとめられていますが,私自身は滅多に使いません.正規性を前提として変数選択するという意味では「モデルのあてはめ」でも同じ注意が必要なはずです.検定だけ正規性をうるさくチェックするのもどうなんだろうと思うのですが,いかがなもんでしょう.


    それではまた.


  • 2つの相関係数

    毎週土曜日の夜にブログを投稿していますが,このところ用事が立て込んできていることもあって,当面は週末から月曜日の朝までのどこかの時間に投稿することに変更します.おそらく日曜日の夜になることが多いと思いますが,とりあえず本日は今まで通り土曜日に投稿します.さて今日は何を書こうかと思案して,先ほどまで「Spearmanの順位相関係数」はどうやって出力するんだっけと,メニューを探っていたところでしたので,これを目指して書き始めます.

    以前お話ししているかもしれませんが,今でもわたしの固有技術は計測だと思っています.新人当時は事業部として独立していた計測事業部に配属され,そこで産業分野における計測の重要性を勉強しました.技術分野としては陽のあたる存在ではありませんが,計測なしにはいかなる技術も立ち行かない,そう思っています.そのときからの計測技術に対する思い入れが今に続いています.初めてJMPを手にしたのも,自分がせっかく調整した計測装置のテータをユーザーに上手く使ってもらいたいということがそもそもの始まりでした.

    サイエンスでも計測は重要です.数値化できなければそのいかなる対象もデータとして分析できないからです.技術分野では,製品ならばその性能,農産物であれば糖度や大きさなど,何を計測するのかは自明なことが多いので(精度や再現性という別の難しさがあるとはいえ)この点では工業計測は楽です.素直にその特性の計測値を「数値」とすれば良い工業計測と比較して,その一方で「数値」化が困難な対象もあるのがサイエンスにおける計測の面白さです.

    例えば,社会科学や心理学のアンケート調査などでは,結果そのものは文字列であっても(すき・普通・嫌いなどのような)順序尺度の変数として数値化するのは容易ですが,研究目的を達成するためには上手いアンケートの作成が肝であるのはご存知との通りです.これは言葉を変えれば,計測手法を開発することに他なりません.抽象的な疲労や知性といった概念も状況は同じです.何らかの決まりに従って数値化可能ではありますが,そもそも何を計測対象とすべきかを研究者自らが決めなければなりません.例えば,疲労感VAS(Visual Analogue Scale)検査や知能テストが開発されています.

    ちなみに簡単に説明すると, VAS検査では被験者に配られた検査用紙に「あなたが今感じている疲労感を,直線の左右端に示した感覚を参考に,直線上にXで示してください.」と指示されています.その下に描かれている線分の左端には「疲れを全く感じない最良の感覚」右端には「何もできないほど疲れきった最悪の感覚」とあって,その線分の上に自分でXを記入します.左端からXまでの長さを連続量として疲労度が数値化されるわけですが,再現性だとか個人の感覚の差だとかいろいろ計測技術としての問題は承知で採用されているわけです.そうでもしないと研究できないからです.

    但し,疲労とか痛みという一般に認知されている概念を特定の(計測可能な)変数に紐付けるのには注意が必要です.VAS検査は世間一般に知られていないという意味で罪はありませんが,知能テストとなるとその対象となる知能の指標がIQとしてあまりに有名なのでいろいろと誤解を招きやすいのです.そもそも知能ということの定義が曖昧です.1904年にイギリスの心理学者Spearmanが一般知能の考え方を提案し,それを受けて翌年にBinetとSimonによって知能テストは開発されました.というわけでこの人が冒頭の「Spearmanの順位相関係数」 を提唱されたSpearman先生です.

    知能テストは何を測定しているのか明確でなく,世間一般にはその結果指標であるIQだけが一人歩きしている状況だと思います.よくある誤解が,知能を知性と同じものと思うことです.検索すれば諸説出てくるはずですのでここには書きませんが,両者は明らかに違う概念です.仏教における知恵と智慧の違いにも似ているかもしれません.仏教では,知恵は煩悩の赴くままに使われるものであり,智慧は真実を見抜くために使われるものです.知恵はあるけど智慧はないという人がいることになります.知能と知性との違いがわかると,人口知能は人口知性ではないのだと納得がいくわけです.もちろん,IQと学歴との相関は明確に存在するので知性と何らかの関連はあるとは言えそうです.いろいろとある知能に対する考えの中で,もっとも納得がいくのが知能テストで評価されるものを知能と呼んでいるというものです.この知能を媒介して研究対象とする「現象」である知性などを代用計測していると考えれば腑に落ちます.

    IQにはデータ分析のためだけでなく,社会的な意義もあります.例えば,知的障害者に交付される「愛の手帳」には1度から4度までの程度の区分があって,その認定にはIQが目安となります.東京都の場合で,最も重度な1度で概ね19以下です.これがどのような程度なのかは,IQはメディアンが100の正規分布であり,標準偏差は知能テストの種類によって異なりますが,15または16ということを知っていればわかります.従って,標準偏差を15とすると,IQが19というのはおおよそ5σと6σの間です.IQは工業計測における6σみたいなものだと考えればいいでしょうか.

    このようにとにかく数値化することを第一優先とし,その数値が何を意味しているかはデータを取ってから判断するという計測もあるのです.こういタイプの計測はひとえに研究者の熱意とセンスの賜物です.わたしがいつも感心するのは生態観察研究におけるエソグラムです.対象とする動物の特定の行動(例えば求愛行動とか)に名前をつけることで,動物行動学で有名なローレンツ先生も研究のために飼っていた「ムクドリ」が興味を引いたものに対する嘴を開ける行動を「yawning (あくび)」と名付けています.観察対象のあらゆるタイプの行動を符号化したものがエソグラムです.エソグラムがあって始めて記録することができ,データ分析の対象となり得るのです.エソグラムを自分勝手に符合化しても意味はありません.そこには客観性が必要です.更に,数値化は分析の目的に応じてなされなければなりません.逆に分析の目的が定まらなければ数値化はできないということです.

    なんだかまとまりのない話になってしまいました.因みに.「Spearmanの順位相関係数」は分析メニューの「多変量>多変量の相関」の赤三角から「ノンパラメトリック相関係数」のサブメニューになっていました.このコマンドを実施するとこのようなレポートが表示されます.

    これを見ればわかるように,単調増加の関数で作ったデータなのでちゃんと相関係数は1になってくれています.変数の挙動が不明であっても,単調増加(減少)くらいの制約であればおける場合が多いので,こういうときには有効な相関係数です.変数の数が非常に多くてJMPで多変量の相関のグラフを表示させるのが厳しいときなどは数値だけを見て判断せざるを得ないことがありますが,このときPearsonの相関係数では冒頭に提示したような非線形の相関関係は見逃してしまう可能性があります.こういうときでも,Spearmanの順位相関係数で引っ掛けることができるので,特に,量産データのように性質が不明であるような場合は,両方の相関係数でダブルチェックするようにしています.

    来週はおそらく日曜日の更新になります.それではまた.


  • 正しい棒グラフ

    先々週の記事でグラフビルダー の「区間」ドロップゾーンのお話をしたかと思うのですが,そこでこのグラフを使いました.

    このとき「因みにこの棒グラフそのものは参考までに載せましたが,こういうグラフは書いてはいけません.JMPではデフォルトではこのようなグラフは描けません.なぜだかはお分かりですね.」と書いたのですが,このことにお問い合わせをいただきましたので,本日はその話をさせてください.

    こうして誰が読んでいるかもわからないブログを毎週書き続けているわけですが,何か反応あると素直に嬉しいですね.こちらのブログでは,コメント欄はページの一番下の目立たないところに移動しましたので,連絡手段としてお使いください.お返事が必要な場合はメールアドレスもお願いします.因みに,こちらでもコメントは表示されません.前のブログでは,いただいたコメントを公開して良いか悩んだ末に公開しないほうが無難だろうと判断したこと多々あったので,こちらでは内容にかかわらずコメントは公開しないことにしました.承認が不要になったため,コメントを頂いても気づくのが遅れると思いますが,ご了承ください.月に一回は見るようにします.

    さて,なぜ上のグラフがダメなのかというと,棒グラフは基本的に原点を見せなければならないからです.グラフビルダー で棒グラフを描くとデフォルトで原点が表示されますが,折れ線グラフにするとY軸の範囲は拡大されますので試してみてください.これはなぜかというと,棒グラフは,変数の変化を棒の長さ(というよりは長方形の面積)の視覚効果に訴えるグラフだからです.従って,微妙な変化を見るのには棒グラフは適していません.上のグラフの場合,エラーバーのデモとして見せたい部分を拡大したが故に原点が見えなくなっている,あまりよろしくないグラフなのです.変化を見るためには折れ線グラフにすべきだったのですが,元データでも棒グラフを使っていたというだけの理由で上のグラフは描きました.デモ用なのでお許しください.

    そういえば,有意差を示すには棒グラフを使うことが多いのですが,この理由も差があることを見せたいが故の視覚効果を狙っているのでしょうか?例えばこの論文「曹,杉森,高(2017),心理学研究,第88巻第1号,33-42,doi.org/10.4992/jjpsy.88.15032」は日本人と中国人とのマルチモダリティな感情認知について,文化差に踏み込んだ面白い研究ですが,図3とか図5に日本人と中国人を対象に比較実験した結果が棒グラフで示されています.よく見るグラフですが,あれ,原点がありません.70%から下が切れてます.実験内容を読むに,ロジックを立てるのにおそらく苦労されたんでしょう.有意性がないことを論拠に議論を展開しているところなんかも気にはなります.心理学の実験はとにかく大変なので,こういうグラフを描きたくなる気持ちはわかります.

    因みに,温度のような間隔尺度の変数の場合は,そもそも棒グラフは使ってはいけません.原点に意味がないからです.原点に意味がないという意味はゼロが数学的な0ではないということです.摂氏0度は温度という変数の値が「ない」わけではないですよね.比率尺度である身長などと比較すればこの点はお分かりいただけるでしょうか.ですから,比率尺度の変数であれば棒グラフにしてもOKです,但し,原点はカットしてはいけません.細かい変化を見せたいのであれば,折れ線グラフを使ってください.原点なしの棒グラフはマスコミがよく使う印象操作手法ですが,同じくよく見かける波線棒グラフ(波線で途中を省略した棒グラフ)なんかもも技術者が使ってはダメです.

    わたしはTVを見ないのですが,マスコミといえばTVの創作グラフは色々とやらかしてるようです.例えば,これとかこれ.以前,どこかでTV関係者の言い訳を聞いたことがあります.TVではグラフは一瞬しか映せないので,視聴者に見やすくかつ分かりやすいのが棒グラフなんだとか.確かに算数に疎い人でも棒グラフは読めるでしょう.でもね,原点をカットしてしまったら,結果として間違った事実をわからせることになるので,それは印象操作と同じです.こういうプロパガンダに対するには一人一人が統計リテラシーを身に付けることが必須です.傑作揃いのマスコミの創作グラフで,今まで見た中で最高傑作がこれです.どんなダメグラフでもこのグラフに比べればマシですね.

    この記事に「統計リテラシー」のキーワードもつけたくなりました.今度こそ,キーワードはきちんとやろうと思っているのですが,もうグダグダになってきました.

    それではまた.


  • こぎれいなデータ(tidy data)

    先週は「不正統計」という言葉に待ったをかけました.不正統計ではなく不法統計と呼ぶべきであると.もっと正確には,不法なデータサンプリングであって,そこに統計の誤用が合わさったということです.この問題の根っこにはデータ軽視があるように思います.更には,正しく統計を使わなければいけないという決意も欠如しているように思います.それは,データは統計分析してこそ意味があるという認識がそもそも欠如しているからでしょう.先週予告したように,このことを実例を元に見ていきます.

    サンプルデータは学校保健統計調査を選びました.このページの調査の結果の統計表一覧をクリックすると,そこに書いてあるようにe-Statに飛んでいきます.データはどれでも同様ですが,昨年の12月21日公開の最新の平成30年度(速報)から都道府県表をクリックして,表番号3の「都道府県別 身長・体重の平均値及び標準偏差」をダウンロードしてください.ファイル名は「h30_hoken_tokei_03.xlsx」となっているはずです. このエクセルファイルをどう思いますか?見ることを前提としたデータなので,JMPで分析しようにも一苦労です.決定的にダメなのは年齢という重要な変数がシートに分割されてしまっていることです.
    このmessy dataを分析可能なデータ(tidy data)に変換するのが本日のお題です.この作業をData Tidyingと呼びます.tidy dataを整然データと訳されている方もいらっしゃいますが,自分的には整然ではどうもしっくりこないので「こぎれいなデータ」と呼んだりしています.整然とした部屋というニュアンスとこぎれいな部屋というニュアンスでは後者の方がtidyに近いからですが,学術用語としては適さないですね.素早く分析に着手できるという意味では「整頓」というのも近いです.
    さて,以下に手順を示しますが,操作の順番は絶対ではありません.正解は一つではなく,以下は一つの例とご理解ください.

    1.   まずはエクセルファイルをExcel読み込みウィザードで開きます.前の設定が保存されているときは一度「デフォルト設定に戻す」を実行しておいたほうが間違いがありません.このファイルでは以下の設定にしてください.

    ここで「連結の際,ワークシート名を含む列を作成する」にチェックを入れることが重要です.この他の設定はデフォルトで構いませんので,直ちに「読み込み」を実行します.空白の行や列などのデータの欠測値を処理することも可能ですが,初めてのデータの場合はこの段階では放置しておくことをお勧めします.
    2.  JMPテーブルに変換できたら,最初にやるのは標準偏差の4列を削除します.(ここでは平均値のみを対象とします.)
    3.「男-身長」「男-体重」「女-身長」「女-体重」の4列を積み重ねます.デフォルトでは,「ラベル」列と「データ」列ができます.以下の説明では列名はデフォルトのまま処理をすすめていきますが,適宜変更しても構いません.
    4.「ラベル」列を選択して,「列>ユーティリティ>テキスト」を実行します.区切り文字は半角のハイフォン「-」です.全角が好きなお役所もここだけ半角なのが謎ですね.
    5.「ラベル」列は削除します.「ラベル3」列もすべて「平均値」と入っていて分析には無意味なので削除します.(削除するのは後でもかまいません.)
    6.「ラベル2」列には身長と体重というラベルがデータとして入っているのでこれを分割します.それには「列の分割」で「基準となる列」に「ラベル2」,「分割する列」に「データ」を割り当てます.このとき「残りの列はすべて保持」にチェックを入れるのを忘れないようにして下さい.
    7.「ラベル1」を「性別」に名称変更して,「ラベル」列は削除しておきます.
    8.区分には都道府県名が入っているのですが,このままではグラフビルダーで認識しないので,シェイプファイルが呼び出せません.なぜかというと,「北 海 道」のように意味のない空白が入っているためなので,これを削除します.それには「検索>検索」で「全角空白」を「」に検索置換します.この操作は二回繰り返さなければなりません.三文字の名称に合わせて二文字の名称が青(全角空白三文字)森のようになっているからです.このよう無駄な空白は誰が得するのか?お役所のデータを他山の石とすべきです.
    9.いよいよ「元のテーブル」列に取り掛かります.例えば.「3県別発育(5歳)」となっている5を取り出すために区切り文字を(歳 とします.普段何気なくつけているワークシート名もJMPに呼び込むことを考えてつけるべきですね.
    10.「元のテーブル2」には全角数字で年齢が入っていますので,列情報を名義尺度とし,列名も「年齢文字」と変更します.
    11.回帰分析などのためには年齢を連続尺度にしておきたいところです.そのためには新規に連続尺度の列を作成して,そこに以下の計算式を入れます.ようするに全角の数字を半角の数字に置き換えるのです.

    Num(
            Substitute( :年齢文字,
                    “0”, “0”,
                    “1”, “1”,
                    “2”, “2”,
                    “3”, “3”,
                    “4”, “4”,
                    “5”, “5”,
                    “6”, “6”,
                    “7”, “7”,
                    “8”, “8”,
                    “9”, “9”
            )
    )

    この計算式の関数NumもSubstituteも文字のところにあります.Substituteは下のほうです.
    12.「区分」をデータフィルタにかけて,都道府県名以外の三つ(???と調査対象者(人)と全国)を選択して行を削除します.
    13.列名は適当でかまいませんが,一般的「身 長(cm)」という全角半角入り混じった列名は「身長」としたいところです.一般的には列名には単位は入れないことをお勧めします.列名は変数名でもあるのでモデリングの際に見やすくなるからです.列の選択リストにも単位が表示されないので見やすいです.
    14.どうしても単位をレポートに表示させたい場合は,列情報の列プロパティで単位を選び,所望の単位を入れてください.グラフなどには単位が表示されます.

    この後,先週のグラフを作成するには,都道府県をクラスタリングしてから,「BMI」列を計算式で作成するだけですが,本日は所用があり続きは後日とさせてください.このグラフを見ると興味深いことが見えます.考察すべきこと色々あリますが,長くなったので本日はこれにて.

    それではまた.


  • 不正統計と統計リテラシー

    不正統計の報道で騒がしい昨今ですが,この言葉を聞くたびに「ちょっと違うのではないか」と思うのです.不正統計が何を指しているのかといえば,ご存知のように厚生労働省の毎月勤労統計の調査が正しく実施されていなかったという問題です.毎月勤労統計調査(いわゆる「マイキン」)では従業員500人以上の事業所はその全てが対象になっていますが,東京都内では3分の1しか調査していなかったとのことです.

    母集団からサンプリングしてその平均値を母平均の推定値とするという行為そのものは統計学としては全く問題ありません.問題はサンプリングがランダムでなかったことです.日本全国の平均賃金を推定する場合,東京都内でのみ三分の一サンプリング(少しい変な言い方ですが,そのほかではサンプリングは全数)していたのであれば,母平均の推定値は真値よりも小さくなります.東京都には比較的賃金の高い事業所が集中しているからです.この報道を聞いたとき,サンプリングして東京都の平均賃金を推定した後,東京のサンプルサイズを3倍したのかと思っていましたが,そんな単純な処理すらしていなかったようです.どうしてそのままでいいと思ったのでしょうか.謎ですね.

    とはいえ,この問題を不正統計と呼ぶのはやめていただきたい.確かにサンプリング手法は間違ってはいますが,統計手法が不正なわけではありません.おそらく不正統計というときの「統計」はデータの意味で用いていると思いますが,データ自身も捏造された不正なものではありません.この行為が問題なのは違法であるということです.毎月勤労統計調査は,それによって景気判断はもとより様々な政策が決定されるわけですから,国の基幹統計調査として統計法で定められているのです.ですから,今回の問題は不正統計ではなく不法統計と言って欲しいと思います.統計という言葉と不正という言葉が紐付けられてしまい,人のヒューリスティックな判断に影響をもたらすはずです.不正統計などという間違った言葉が蔓延るのは少なくとも統計教育にとって百害あって一利なしです.

    統計には嘘はありません.「嘘には三つある.一つは嘘でもう一つは大嘘(真っ赤な嘘とも),そして三つ目は統計だ.」などというマーク・トゥエインの言葉が有名ですが,彼がこのイギリスの首相の言葉(諸説あります)を引用したのは,元々は「(私は)数字に惑わされる」という文脈でした.確かに数学には嘘はありませんが,数字には嘘があります.それと同じく,統計学には嘘はありませんが,統計データ(結果)には嘘はあります.嘘があるのはそこに人間がいるからで,嘘をつくのは人間なのです.それを統計のせいにするな,とわたしは言いたい.とはいえ,嘘をつくつもりがなくとも人間に間違いや勘違いは付きものです.そのための最低限の能力が統計リテラシーです.

    例えば,マイキンでもその一部で全数検査が(本当に必要なのかは別にして)実施されているかもしれませんが,そもそも,日本の勤労者すべてを母集団とするならば,東京都のみ全数調査するのは正しいサンプリングなのでしょうか.精度を上げたいという意図は理解できますが,従業員が499人の事業所はおそらくサンプリング調査されているはずです.500人という区切りの根拠は明確ではありません.統計学の示すところによれば,所詮はサンプリングの結果に過ぎないのならば,推定値と合わせて信頼区間を提示すべきということです.

    信頼区間を提示するには提示する側もされる側にもある程度の統計学の知識が必要です.この統計学の知識を読んだり書いたりする能力が統計リテラシーとも言えます.統計リテラシーを前提にしてデータの開示がなされるようになるべきですが,とある科学分野の論文を読んでいても,SDとSEを取り違えているようなものも目に付くくらいですから,役所に統計リテラシーを期待すべきではないかもしれません.

    そもそもお上の統計の扱いには常々疑問を抱いています.e-Statが開設された時のゴタゴタは記憶に新しいところです.わたしもセミナー用のデータとしてe-Statをよく利用させていただいているのですが,そのほとんどがmessy dataです.JMPのマニュアルでは雑然データと訳されていますが,messyには散らばって汚らしいというニュアンスがあります.あまり触れたくない感じです.csvやxslで提供されているならまだしもPDFになっているデータがかなりあります.PDFというフォーマットは本来印刷用のものでデータ分析にかけることは想定されていません.

    xslデータであっても,例えばこの学校保健統計調査のような見ることを前提としたデータが圧倒的です.年齢という重要な変数がシートに分割されてしまっています.これは困りました.おかげでわたしとしてはこれを他山の石としてセミナーの題材にできるのですが.さて,データはe-Statからダンロードできます.このmessy dataをJMPで分析するのはどうすれば良いでしょうか?例えば,身長と体重からBMIを算出してそれが年齢でどのように変化するのかを男女別に見たいとして,どうすればいいでしょうか.実はこの処理で一箇所つまずくところがあります.来週のブログで手順を合わせて回答しますので,お楽しみに.

    因みに結果の一部を示しておきます.データは「学校保健統計調査平成30年度(速報)」を使ってBMIのクラスタリング結果(性別,年齢を区別しない)を表示していますが,この分布を再現できますか?

    それではまた.


  • 初JMP

    今年もよろしくお願いいたします.本年最初に何を書こうかとニュースを漁っていたところに目に留まったのがこちらの記事です.Windows 10 tops Windows 7 as most popular OS
    リリースは3年前でしたのにまだWindows10のシェアはまだ4割にも満たないんですね.あっという間に9を飛ばして10に入れ替わったこともあってWIndows8のシェアが低いのは何となくわかります.8.1が出たときのゴタゴタが尾を引いているのでしょうか.因みに,WIndows9というネーミングが飛ばされたのは,( Windows95や98であることを認識するために)「Windows9」 という文字列を前方一致で検索するコードが存在するからと聞いたことがあります.

    実はこのブログにもアクセス解析の機能が備わっています.アクセス数はたまに見ることはありますが,おまけ機能なので正確ではないし,何よりもせっかく来てくださる方の情報を覗くのは趣味ではないので見ていません.そもそもわたし自身がかなり強力なプライバシーフィルタをかけているので主義に反する行為なのです.とはいえ,このニュースを読んで,このブログの訪問者のOSシェアに興味を持ったので,調べてみました.情報を皆様に開示するならば許されるかなと思っています.
    クローラもカウントしているので,この数字の信頼性は低いものの,予想よりも多くの方に訪れていただいているようで何となく安心しました.個人の日記とはいえ訪問者が誰もいないというのは寂しいものです.
    念のために補足しますと,ブログをお持ちの方はご存知と思いますが,この「さくらのブログ」のような個人向けブログサイトの「アクセス記録」ではブラウザの自己申告情報を集計しているだけです.どこから来たのかといういわゆるリファラもその一つですが,サーバーのログを解析することまではできませんので,どの検索エンジンから来たか程度しかわかりませんし,わたしも通常はアクセス記録を覗かないことにしていますのでのでご安心ください.
    さて,12月のアクセス記録からOSシェアを計算しました,全アクセス数から「不明」を除いて,モバイル環境の方も結構いらっしゃるので,PCとモバイルとに分けます.データを目前にすると何かしてみたくなるのがJMPerの性分です.手始めに,見やすくするためにOSはWindows,Mac OS,Linuxに三分類して実際のOSシェアとを比較してみました.その結果がこちらです.

    圧倒的にWIndowsユーザーが多いのは会社から訪問してくださっている人が多いからと推察します.更にWIndowsの種類で可視化してみますとこのような結果になりました.書き忘れましたが,Net Applicationsというのは毎月1日にブラウザとOSの世界中の利用状況を発表している米国の調査会社です.以前から調査結果に疑問をお持ちの方もいらっしゃるようですが,他に引っ張ってこれるデータもないので.参考

    この円グラフの上が本ブログで下が世界平均です.一見してWin8ユーザーが多いのはなぜでしょうか?検定にかけてみるとやはり当ブログの訪問者のOS分布は歪んでいるようです.

    本来は日本のOSシェアと比較すべきところです.モバイルOSではiOSのシェアが日本では世界よりも高いと聞いていますし,実際このブログでもiOSユーザーの方がAndroidよりも多いです.

    新年早々あまり役立つ情報は得られませんでしたが,初JMPということでお許しください.それでは.


  • コミュ力とは何か?

    ブログとはそもそも日記のようなものなので,思ったことを書けばいいのでしょうけれど,思ったことをそのまま発信するのは気が引けるものです.結果として誰かを批判するように取られてしまうのを恐れるからです.そんなわけで,あまり時事ネタは取り上げないようにしているのですが,たとえ少しでも統計に関わっていれば話は別です.
    今週目にとまったのは,順天堂大学の入試問題についてのニュースです.朝日新聞デジタルによれば,「順大入試、女子を一律に減点「コミュ力が高いため補正」」という見出しで以下のように報道されていました.

    順天堂大(東京都)は10日、医学部入試をめぐって設置した第三者委員会から「合理的な理由なく、女子や浪人回数の多い受験生を不利に扱っていた」と指摘されたと公表した。

    具体的には,2次試験の面接で女性の点数に負の下駄を履かせていたとのことです.その理由が「女子はコミュニケーション能力が高いため、補正する必要がある」からとのことです.補足すると,この差は「18歳の時は女性が高くても、20歳で一緒になる」のだそうです.この「客観的データ」に基づいて,18歳の男性の不利にならないように面接評価を補正したとのこと.この「客観的データ」というのは,大学側が第三者委員会に提出した,その旨の医学的検証を記載した米大学教授の1991年の論文と書かれてあります.朝日新聞がその論文を確認したところ,面接時のコミュニケーション能力について論じた部分は見当たらなかったそうです.記事には論文についての詳細はありません.「有料会員になると続きをお読みいただけます。残り:660文字/全文:1311文字」とのことで,660文字にそれが書かれているのかもしれません.無料会員でも1日1本まで有料記事が読めるのですが,朝日新聞のサイトはトラッカーが多い(確認できるだけでも5つ)のであまり立ち寄らないようにしています.(因みに,読売新聞も毎日新聞も1トラッカーしか確認できません.)

    どうやって「コミュ力」のような得体の知れない能力を医学的なエビデンスの検証対象としての俎上に載せるのか興味があり,わたしもその論文を読んでみたいと思ったのであちこち調査して,ようやくその論文を見つけました.幸いオープンになっています.Cohn L.D.(1991), Psychol Bull. Mar;109(2):252-66 Sex differences in the course of personality development: a meta-analysisという題名からもわかるようにメタアナリシスの論文でした.著者はテキサス大学のCohn先生です.

    この論文を読むのに必須な前提知識がありまして,それがLoevenger’s Systemと呼ばれる自我発達過程についての理論です.子供から大人へと登る階段とでもいいましょうか.1976年の論文(Ego Development: Conceptions and Theories)では衝動的から自立的に至る7つの段階(定義の違いによっては9つまたは10)が説明されています.重要なのはこの理論では各段階と年齢とを紐付けないので,大人でも衝動的段階に留まったままの人もいるかもしれないということです.

    Cohn L.D.(1991)では,この階段の登り方に性差があるかを調査した65の研究(113の比較データ)をメタアナリシスにかけたものです.どのように自我発達段階を数値化したかを読んでみると,WUSCT(Washington University Sentense Completion Test)という,文の出だしを与えてそれに続く言葉を考えて文章を完成させるテストを基にしているようです.例えば,”If my mother…”に続いて,“…hadn’t married so young and had less than five children…”などと書いたとして,それをマニュアルに従って採点します.このテストには色々なバージョンがあるようですが,ジェーン・ロエビンガー先生の考案したオリジナルでは36ある文章完成問題の総合点数TPR(Total Protocol Rating)スコアという1つの指標で発達段階を表現します.メタアナリシスでは男女間の差を,効果サイズ(Hedges’gが計算できる情報がなければCohen’d)で統合的に示したのです.エビデンスレベルとしては高い研究と思います.JMPでどうやってこれらの指標を求めるかについてはいずれこの場で書きたいと思います.

    その結論としては,女性の方が男性よりも青年期においては(自我発達段階において)進んでいるが,大人になるとその差は消滅するというものです.言葉を変えれば「女の子の方がおませだ」という一般に言われていることを科学的に検証したといえます.
    問題は,この結論から大学入試(高校卒業)の時点で女性の方がコミュニケーション力があると言えるかということですね.いくつか思ったことを列挙します.

    1.発達段階とコミュニケーション力の関係については重要なキーワードがありますが,1つはego centrismです.自己中心主義と訳すこともありますが,今の文脈ではピアジェが児童心理学で用いた自己中心性のことです.よくあげられるのが,幼い子供が目をつぶって相手からも自分が見えなくなると思い込むという例です.即ち,自分の主観的視点でしかものを見れないという幼児期の特徴を意味しています.ego centrismをコミュニケーション力の指標とするならば,自我発達段階が進んでいる女性の方が(ある年代までは)コミュニケーション力はあるとは言えます.一方,Cohnの論文には,先行研究の知見として”perspective talking appears no greater in girls than in boys.”という記述があります.perspective talkingとはthe ability to accurately label the feelings of another person(他人の気持ちを正確にラベル付けする能力)と書いてありますが,日本語では視点取得と訳され,相手の立場に立って考える対人的な共感的過程のことです.この能力は男性よりも女性の方
    いずれにせよ,Cohn論文には,コミュニケーション力という言葉が直接出てくるわけではありません.この点は朝日新聞の指摘通りなのですが,問題はそこにはなく「自我発達段階が進んでいるからコミュニケーション力がある」というピース(エビデンス)なしには順天堂大学のロジックは破綻しているということです.探せばあるのかもしれませんが,それなしにはロジックの中抜き論法にすぎません.特に初段に権威を持って来ればその威力は絶大だという例になっています.

    2.WUSCTはジェーン・ロエビンガー先生がそもそも女性を対象として開発されたテストであって,男性や日本人に対しての妥当性は別の議論になります.男性向けのマニュアルや日本人を対象としたSCTも開発されていますが,それは90年代後半になってからのことなので,Cohn論文の対象となった研究で発達段階の(少なくとも日本人の)性差を議論するのは疑問が残ります.

    3.性差があったとしても,それは大人になれば消失するという結論です.それでは,どの時点で消失するのかについて考察もされていますが,高校生の間は差は安定しているもののgrade13(米国では18−19歳)で急激に減少すると示されています.もしかしたら,この発達段階の性差のダイナミズムは大学入学という節目による環境の変化を反映しているのかもしれません.何れにせよ,20歳で消失するというのではなく,20歳では既に消失(低減)しているというのがより正確です.従って,面接試験を受ける女性(特に一浪でもしていたら)不利を被っているだけということになります.

    4.仮に,順天堂大学のロジックの根拠を認めたとして,そもそもコミュニケーション力が高い方が医師に向いているのではないでしょうか.不公平をもたらすというのであれば,面接を止めれば良いのでは?

    5.計測技術の技術者としてこれだけは譲れないのが,補正という言葉は使わないでいただきたいということです.減点とかペナルティとかハンディキャップとか他に適切な言葉は色々ありますから.

    この件についてわたしがどう結論するかはここには書きません.とはいえ,朝日新聞の記者が読んだというだけで納得せずに,自分でソースを探し出して自分で理解しようとしました.勉強になったこともたくさんあります.これが統計リテラシーの基本だと思うのです.

    それではまた来週.

    この記事を書いた後に奥村先生のtweetがありましたのでご参考まで.


  • 紅茶の話

    11月1日は紅茶の日だったそうです.<a href=”http://www.glico.co.jp/info/kinenbi/1111.html” target=”_blank”>ポッキーの日(正式にはポッキー・プリッツの日)</a>がその形状から決められたように,紅茶の葉を数字の1に見立てて11月1日と決めたのだろうと思っていたのですが,<a href=”http://www.tea-a.gr.jp/knowledge/tea_day/” target=”_blank”>日本紅茶協会</a>によると,初めて外国での正式の茶会で紅茶を飲んだ日本人と言われる大黒屋光太夫が,女帝エカテリーナ2世に接見したのが1791年の11月と記録されているからだそうです.別の記録によれば1791年6月とも書かれていますが,とにかく由来はこのような歴史に基づいているそうです.

    大黒屋光太夫といえば,司馬遼太郎『菜の花の沖』にも登場したので,高田屋嘉兵衛とイメージがダブりますが.緑茶に慣れていたであろう光太夫の舌には紅茶はどのように感じられたのか興味があります.ロシア流の紅茶は甘いジャムを舐めながら(おそらく口に含んで溶かしながら)飲むそうなので,おそらく不味いと感じたと推察します.

    紅茶の日ということで,日本紅茶協会が配布したポスターがtwittetで話題になっていました.「紅茶はインフルエンザウイルスを99.9%無力化します!!!」とのことで,みなさん99.9%というところを怪しまれているようです.紅茶のテアフラビンは抗菌作用があることで知られています.確かのど飴が売られていたと記憶していますが...あった,見つけました.このテアフラビンは紅茶の発酵過程で緑茶のカテキンが酸化して生成するポリフェノールです.長崎大学大学院医歯薬学総合研究科天然物科学研究室のサイトによればその生成にはまだわかっていないことが多いと書かれています.このページの下の方にあるカテキンの参加経路など拝見すると,この式が理解できるというのはすごいですね.ここに書かれていますが,紅茶でなくても,緑茶にリンゴの皮やバナナスライスなどを入れることで,テアフラビンは生成されるそうです.緑茶にリンゴの皮を入れて飲めばインフルエンザ予防に効果あるのでしょうか?

    さて.紅茶がインフルエンザウイルスを99.9%無力化するという主張を統計リテラシーに照らして検証してみましょう.まずは主張の根拠を探すことから始めます.行き当たったのが,紅茶協会のインフルエンザに対する感染伝播阻止効果という資料です.ここにはインフルエンザウィルスを何と99.999%無力化すると書かれています.どうやら培地上で100万個以上あったウィルスが紅茶を作用させたことで検出限界の10個以下になったからということが根拠のようです.検出値を検出限界で割り算して何倍というのは残留放射線のケースでもそうでしたが,よくある間違いです.検出限界はバックグラウンドの変動という確率的な現象を数値化したものという認識が欠けています.**%無力化するという表現も気になるところです.100個のものが1個に減ったことを無力化と呼んでいいものか.とはいえ,紅茶がインフルエンザ予防に何らかの作用がありそうだということはわかりました.ウィルスのスパイクに付着するというメカニズムも合理的です.但し,下に小さく書かれているように「ヒトでの実験は実施していません」ということは知っておくべきです.

    そこで,ヒトを対象にした研究を調べてみました.見つけたのが,岩田雅史他(1997), 感染症学雑誌 第71巻 第6号, 487-494, 紅茶エキスのうがいによるインフルエンザ予防効果です.この論文で示されているのは,in vitroだけでなく約300名を対象としたin vivoの実験を実施している本格的な研究です.材料,対象および方法のところで,うがいには,紅茶(日東セイロン紅茶)を50°Cで30分抽出して0.5w/v%無糖液を作成した,などと書かれているのがジワジワきます.この論文でペア血清というのは,同一人物から一定間隔で採取した二つの血清のことで,ウィルス血清抗体価は過去にそのウィルスに感染した履歴の影響を受けるので,感染前後での抗体価を比較する必要があるのです.ですから,感染の有無を判定するためのペアであって対応があるということではありませんので注意が必要です.実験結果はtable3にまとめられていますが,ペア血清が得られた制御群125名中感染者が61名,実験群134名中47名..ってインフルエンザにかかり過ぎのような気がしますが,カイ二乗検定の結果は有意水準5%で有意性ありと結論しています.JMPではこんなふうになります.

    検定結果は5%有意ではあるけれども1%有意ではない程度のようです.臨床試験にはよく5%有意であることのみ示した研究が多いですが,できるだけp値も併記して頂きたいですね.実験データから何らかの判断を下すのはときには利害関係がある研究者だけではなく,一般人の立場から判断したいからです.もちろん,そのために最低限の統計リテラシーは備えている必要はあります.

    この研究では制御群は何もしていないのですが,本来は水や塩水でうがいをしてもらうべきでもあったと考えます.紅茶うがいは液体でうがいをすることに主たるインフルエンザ防止の効果があったとも考えられるからです.

    以上を踏まえると,少なくとも99.9%という数字には惑わされない方が良いように思います.紅茶の効用をアピールしたいのは理解できるのですが,ワクチン嫌いなお母さんがいて,うちの子には紅茶飲ませてるからワクチン接種しなくて大丈夫,などというケースが多くなればそれこそインフルエンザ流行に拍車をかけてしまうかもしれません.
    しかしながら,個人で臨床試験をするのは無理です.せいぜい自らが実験動物になるくらいですが,人間の場合は認知バイアスという思い込みもあります.そこで日常的な統計リテラシーの練習としてできることとして,仮説をたててそれを検証することがあります.紅茶を世界で一番飲む国はご存知でしょうか?先のロシアでもイギリスでもなく,実はトルコなのです.

    それならばトルコではインフルエンザは流行しないのではないか?という仮説を立ててそれを検証してみます.WHOの2018年1月の報告,Influenza Update number 307. 22 January 2018 がありました.トルコはどこかと探すと黒海と南のエーゲ海・地中海に面しているあたりです.微妙な黄土色なのでinfluenza pisitiveが21-30%です.イギリスも30%以上ですから,しっかりとインフルエンザが流行しています.他にもトルコ日本国大使館が在留邦人に出した,「トルコ国内におけるインフルエンザの流行について」などという文書から判断するに,紅茶のインフルエンザ予防効果は期待しすぎない方が良いようです.

    今日は冷えますので,皆様もお気をつけください.それではまた,


  • 『データ分析の力』

    先日,Amazonの本書のページを見た際に「この商品を買った人はこんな商品も買っています」というところを興味深く拝見しました.どのような人が本書を読んでくださっているのかのイメージが掴めます.JMP関連の本がほとんどという中で目についたのが伊藤公一朗(2017)『データ分析の力 因果関係に迫る思考法』光文社新書です.ビッグデータのデータ分析という多くの方が興味を持つ分野の本であり,新書なので気軽に買える値段ということもあって多くの方々に読まれているようです.レビューも高評価なので,私も読んでみました.

    著者によれば,因果関係の見極め方を計量経済学の観点から解説した本とのことですが,データ分析一般を視野に因果関係の深い議論に切り込むというよりは,計量経済学におけるデータ分析の応用例を解説した本です.冒頭に,例によってアイスクリームの話などを引いてRCT(ランダム化比較試験)が出てきます.それに続いてRCTが利用できない状況で,意図的な実験ではないデータを利用する様々な手法とその限界とともに紹介されています.実験計画がごく普通にできる産業分野の技術者にとって,この本を読んでこれらの手法の概念を理解するというよりは,データ分析は分析者の工夫と熱意で成し遂げられるものということを理解することの方に価値があります.

    社会科学や心理学,それにこの本のような一部の経済学は一般一般にはデータ分析がしにくい分野です.特に心理学では様々な工夫を凝らしてデータが取られていますが,その多くは相関研究ではあるものの,論文の結語にその旨の注意が書かれているものが多いです.RCTを実施するにはコストだけでなく倫理面でも大きな障害がある分野です.相関研究だとしてもそこにはデータを積極的に取る為に大きな努力が必要です.自然とそこにデータを扱う態度に対して他の分野との温度差を感じます.技術者上りよりも営業畑からの人の方がデータ分に向いていると聞いたことをこのブログのどこかで書いた記憶がありますが,良いデータ分析に何よりも必要なのは熱意なのかもしれません.

    もちろん良い本だとは思いましたが,RCTの重要性を理解するなら他にもいろいろ良い文献があります.例えば,私が最初にRCTという言葉を知ったのは,ずいぶん昔のことですが,日本産科婦人科学会の学会誌の津谷 喜一郎 , 石川 睦男,日産婦誌第51巻 第9号,第51回日本産科婦人科学会生涯研修プログラムの中の7) Evidenceと臨床試験です.この文献は実際にご覧いただければわかるのですが,エステサロンの効果を解説するために広告から持ってきたという写真が載せてあるのですが,その女性の写真の腕に文字が写り込んでいてとてもシュールなのでとてもよく記憶しています.この当時でもフォトショップがあったのでこの程度のノイズは簡単に消せたはずですが,このまま掲載したのは著作権などに配慮してなのかは不明です.因みに,この文献で覚えた背景因子という言葉が,共変量という言葉よりもその意味が伝わりやすいと考え「統計的問題解決入門」でも背景因子を採用しました.今読み返してみると,「臨床試験の基本的構造は患者という個人の利益ではなく,患者の肩越しの母集団の利益を考えているために,個別的倫理と集団的倫理との間にジレンマが生じる」などというくだりは臨床試験の重みがひしひしと伝わってきます.

    『データ分析の力』では(偶然に)まるで実験がなされたかのような状況を利用する「自然実験」としてRDデザイン,集積分析,パネル・データ分析などが解説されていますが,JMPならば複数の背景因子を「傾向スコア」という単一の指標に集約した分析が可能です.「傾向スコア」の値をカテゴリカルな因子(説明変数)として(名義ロジスティック)回帰分析を実施することも可能です.因みに名義ロジスティック回帰では特性はカテゴリカル(例えば改善あり,改善なし)がYになります.産業分野では,何らかの処理の有無が紛れ込んでいる量産データなどが対象となりますが,何か良いデータが見つかれば,そのうちこのブログでやり方などを解説してみたいと思います.『統計的問題解決入門』の第一講で「名義ロジスティック」に言及しています.技術分野ではあまり馴染みがない手法なののでその雰囲気だけでも味わって頂こうと考えたのですが,少々高度な内容になるので,その中身には全く触れることができなかったのが少し心残りでもありました.

    『データ分析の力』を読んで一つ気になったのは,最後で説明されている内的妥当性と外的妥当性についてです.データから得られた分析結果はもちろんそのデータサンプルに対しては妥当(内的妥当性あり)ですが,分析結果がそのサンプル以外にも適用できるのかという問題を外的妥当性と言うそうです.これは統計モデルのオーバーフィッティングのところでお話ししたことと同じなのですが,私が思うに,外的妥当性がなければそもそも因果関係は議論できないのではないでしょうか.この本からは内的妥当性があれば因果関係を議論できるように読めます.少なくとも計量経済学ではそれが許されているのでしょうか?
    書評になっていませんが,今回はここらへんで.