過去の投稿に画像リンク切れ多数ありご迷惑おかけしています.

JMPではじめるデータサイエンス

JMP

パーティションのk分割交差検証(重要)

先週の続きです.結論から先に言うと,パーティションのk分割交差検証はJMP16から廃止されました.先週の記事では不正確なことを書いてしまったので,今日はそれを訂正するとともに,なぜ廃止されたのかという背景や今後の対処法について考えてみます. 最初に,JMP15までのパーティションのk分割交差検証のアルゴリズムについて説明します.実は『JMPではじめるデータサイエンス』のp206に書いてあることは,正しくないことが判明しました.ここに書かれている説明は教科書通りなのでなんの不思議もないし,SAS社からも確かにこの説明を受けていたのだけど,真実はどうやら違うらしい. 理由はど...
JMPではじめるデータサイエンス

密とソーシャルディスタンス

全国的なコロナ流行の影響で運動会を中止にする小学校も出ているそうです.運動会は嫌いな子もいるけど,悲しがってる子もいるだろう.高校だけど,私の母校は運動会が盛んでそれこそ1年のメインイベントだったので,その気持ちは痛いほどわかります. 「棒倒し」とか「100人ラグビー」とか色々と変わった種目があって,その練習は放課後はもちろん,昼休みもやるのですよ.そうなるとお昼ご飯を食べることができないので,当然早弁と言って休憩時間にに弁当を食べるわけです.それもクラス全員が.今にして思えば,バンカラな校風だったですね.共学だったけど,女子も早弁をしていたのが印象に残っています. 運動会を中止...
JMP

再コード化を使ったマッピング

『JMPではじめるデータサイエンス』が増刷になった機会に,今まで見つけた間違いを訂正しておきました.訂正箇所はこの記事にまとめておいたので,参照してください.購入したばかりの人には申し訳ないです.お詫びに,連絡くだされば何か特別なことをやろうと考えてます. さて,この書籍はJMP14を使って書いたのですが,前にもお話ししたように校正段階でいきなりJMP15がリリースされ,慌ててJMP15で全ての内容をチェックして,JMP15での違いを補足しました.その後,JMP15の新機能の全貌が明らかになると,一部の例題でもっと効率良い方法があることがわかったんです.今回は,ページを跨ぐような修正は...
JMPではじめるデータサイエンス

パラレルプロットのすすめ

JMPにはいろいろと好きな機能があるんだけど,「パラレルプロット」はそのうちの一つ.多次元データの可視化のためのグラフだから,実験計画のデータやモデルの可視化によく使います.とはいっても,JMP固有のグラフっていうわけじゃなくて,Pythonのmatplotlibを使っても描けます.だけど,その前にpandasでデータ構造を並行座標系にしとく必要があるので手軽じゃない.それに,このグラフ単独で何かを結論することは少ないから,JMPの要素機能特にダイナミックリンクととても相性がいいと感じてる. 数バージョン前から「グラフビルダー」にも搭載されたので,「段組み」とかを使うことでますます使い...
JMP

統計リテラシーと抗体検査

今日読んだニュースによれば(今日のニュースではありませんけど),インテルが7nm半導体の技術開発が予定より6カ月遅れていることを明らかにしたことで,株価が1割近く下がりました.Mac搭載のCPUとして毎日お世話になっていますけど,つい先日もAppleがCPUをインテル製から内製へと移行していく方針が発表されたばかりです.自社の製品開発のロードマップを他社の開発の遅れに妨げられないようにすることが目的と言われています.おそらく,インテルも今後は外部への生産委託を拡大する方向へ舵を取っていくことになると思いますが,同じ業界に長いこといて,かつての同僚のアメリカ人なども働いているので他人事のようには...
JMPではじめるデータサイエンス

検査の損益に付いて考える

先々週のブログで,PCR検査は検査というよりも,仮説検定と同じテストであるとみなすべきと書きました.もちろん,同じテストだと言っても,確率に基づいた判定ではないという点では,仮説検定とは厳密には違います.ではありますが,試行の結果(イベント)を真実と判断結果の四分割表に割り当てる手法であると緩く考えるとPCR検査の実態をより深く理解することができます.4つの領域は「あたり」と「はずれ」が半々ですが,このうちの2つの「はずれ」が意思決定手法としての評価に特に重要です.仮説検定では,それらを第一種の過誤と第二種の過誤と呼ぶわけですが,この命名では両者の違いがわかりにくいと思いませんか.英語でも,...
JMP

練習31について

リモートワーク中に拙著で勉強して頂いた方が多くいらしたようで,ありがたいことです.最初にリリースしたのが『統計的問題解決入門』だったので,こちらを先に購入してくださった方も多いのようなのですが,JMPの基本操作を勉強するには少し不親切だったかもしれません.もう一度書きますが『統計的問題解決入門』は実験計画で,『データサイエンス』はデータ分析を学ぶのを目的としています.ですので,JMP初心者が最初にお読み頂くならば『データサイエンス』をお勧めします.実験計画,特にJMPでは標準的なカスタム計画に興味がある,あるいは実務で使いたいという方は『統計的問題解決入門』をどうぞ.書名が親切でなかったために...
JMP

災難に逢ふ時節には災難に逢ふがよく候

先週予告したように,本日は新型コロナウィルス感染者の状況を中国,イタリアと比較しようと考えていました.ですが,イタリアの状況がデータを取るまでもなく酷くなってきていて,指数関数のグラフを見るに忍びないので,変更させてください.自転車と万年筆を愛する自分にとって,イタリアは特別な国なのです.(中国ならいいのかと言われれば,もちろん,そんなわけではないですよ.)ただ,どうしても気が乗らないのです.今年のジロは中止でしょうね... そもそもコロナウィルスをブログ題材にするのにも気が引けるように思えてきました.自分に興味のあるデータ分析の対象として扱っているだけなのですが,明らかに,ここ最近のビュー...
JMP

「JMP超入門」はじめました

このブログに来て頂いているということは,基本的に『JMPではじめる』シリーズの読者の方々と思います.少しはお役に立っていますでしょうか?中には,なかなか時間が取れずに積ん読状態になっている方もいらっしゃるかもしれません.そこで,これからJMPを学ぼうと思っている方のために,記事カテゴリーに「JMP超入門」を加え,連載をしていくことにしました.それというのも,ここしばらくは在宅勤務や出張のキャンセルなどでいつもより時間がある方が多いと思うからです.私も今は時間があるので,こういうことができます. いきなり春休みに突入した小中高生には,民間企業が提供するいりいろな自宅学習支援のコンテンツが...
JMP

新型コロナを題材に補講します

本日は,新型コロナを題材に『JMPではじめるデータサイエンス』の補講をします.p54の『シロかクロか?」を開いてください.何かと話題になっているPCR検査について検査的中率を求めてみることにします.必要になるのは,偽陽性率と偽陰性率というPCR検査の性能と事前確率,即ち被験者が感染しているであろう確率です.最初に偽陽性率と偽陰性率を調べてみます.専門家が,口々にPCR検査は絶対ではないと言っているものの,それがどの程度なのか具体的な数字は見つけることができませんでした. ウィルス検査の偽陽性率についての文献はインターネット検索のレベルでもいくつか上がってきますが,例えば,この文献では,P...
JMPではじめるデータサイエンス

『JMPではじめるデータサイエンス』の訂正について

本日は『JMPではじめるデータサイエンス』の訂正についてお知らせします.既に,オーム社のサイトではサポートファイルをダウンロードする際に,訂正の情報が表示されるようになっています.既に流通に回ってしまっているものについては無理ですが,在庫分には訂正表を挟んでいただけることになりました.とはいえ,自分で言うのもどうかと思うのですけど,クリティカルな間違いではないのでご安心ください. せっかくなので,以前お知らせしている訂正も再掲しておきます. 1.p73の6行目のJMPくんのセリフ内のファイル名 誤)h30_hoken_tokei_03.xlsx 正)h30_hoken_toukei_0...
JMPではじめるデータサイエンス

P44の補講

ここのところ日中は暖かい日が続いていたのですが,今日は寒い週末でした.年末年始の連休後ということもあって精神的にも体力的にも辛い時期ですが,こういう季節は家に籠って勉強するにはうってつけです.ということで,本日は『JMPではじめるデータサイエンス』についての補講をします.そういえば,出版記念イベントを開催する予定だと以前お伝えしたことを思い出しました.実は,まだ詳細は決まっていませんが,計画は進めていますですので今暫くお待ちください. それでは,P44を開いてください.ここでは,「100m女子世界記録.jmp」を使ってデータの視覚化を練習します.このデータテーブルはサポートファイルとし...