過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

分布形状の裏を探る

統計リテラシー

任天堂の2022年3月期第二四半期の決算説明会の資料に面白いグラフが載ってます.このPDF資料の8ページ目を見てください.このヒストグラムは「年間プレイユーザー」の年齢構成を示しています.「年間プレイユーザー」とは,任天堂のアカウントのうち,会計年度の1年間に,Switchで何らかのゲームを起動した人のことと定義されてます.

このヒストグラムを見ると明らかに異常がありますね.21歳のビンだけ突出してます.詳細は良く分かりませんが,アカウント作成時に入力する生年月日から20歳を超えて21歳以下の人を集計しているのでしょうか.このグラフネット界隈で話題になったので,ご存じの方も多いと思います.この記事では年齢詐称している未成年が多そうだなどと書いてあります.

確かに,15歳近傍の不自然なへこみはその可能性を示唆してます.そうだとしても,20歳と詐称する理由がわかりません.13際を境に二種類のアカウントがあるので,13際にピークがあるのならわかるんですけど.コンピュータエンターテインメントレーティング機構(CERO)のCEROレーティングの最も厳しい分類が18+ですから,18歳にピークがあるのでも納得できます.

20歳になって自分のお金でSwitchを購入できる人が増えたのだという解釈も成り立ちます.それに加えて,アンケートに実際より若く答える人が,特に女性に多いという既知の効果も考えるべきです.事実,25歳や30歳だけでなく,35歳や良く見ると40歳にもわずかながらピークがあるようです.

ヒストグラムを見るのに,その背後に何が隠れているのか想像するのは本当に楽しいですね.特に正規分布からのずれに注目するといろいろなことが見えてきます.

とここまで書いて,急用ができたので,続きはまた明日にします.

すいません.

と昨日ここまで書いたので続きを..

データの正規性には,米国で働いていたときの強烈な思い出があります.半導体計測の装置担当者として従事していたのですが,ある日データに異常な歪を見つけたのです.それがいつでも出るわけではないので,その原因調査に動きました.ヒストグラムを見ると線幅のスペックぎりぎりのところが突出している,上述の任天堂のデータのようになっています.

私がやったことは張り込みです.およらく特定のオペレータが何かしらやらかしていると思えたので,データから疑わしいと目途をつけたオペレータの行動を背後から監視ししました.そして見つけたのです.

線幅の計測値がスペックより細いと,装置はオペレータに確認を求めます.そのときマニュアルアシストのオプションがあるのですが,その彼は,マニュアルアシストを何回も繰り返してます.なぜかというと,スペックアウトすると彼の仕事が増えるからです.電子ビームで線幅を測っているので,何回もマニュアルアシストを繰り返すとカーボンが付着して線幅が太くなってしまうので,スペックインしてしまう..

おいおい,それじゃ何のために計測しているかわからないよ,と注意すると「OK」といってにっこり笑う.そんなアメリカが私は大好きです.

再びそれでは.

統計的問題解決研究所

コメント