AUGRIM

医療と機械学習を正しく、簡単に伝える

臨床データベースMIMICの使い方~なぜ医療における人工知能研究は少ないか

こんばんわ、今日はMIMIC2*1という米国の臨床データベースの使い方を紹介します。
と言いたい所なんですが、使い方の前に、このデータベースは、アメリカのオンライン倫理学習コースCITI*2を取得しなければ利用することができません
今日はその倫理学習コースの取得方法をご紹介します。(若干面倒)
[現在はMIMIC3*3 となっております。MIMIC2の時とは別の倫理コースを受けなければなりません。これについては後日ブログにします。]
 
人工知能に必要なものは何か?」と聞かれるのですが、「機械学習に必要なものは何か?」と言われた場合、これは「モデルとデータ」です。データがなければ学習できません。しかし多くの人が勘違いするのが、「データがあればあるほど、精度が上がって良いんでしょ?」と言いますが、これは違います。そもそも行いたい予測とそのデータ構造にモデルが上手く折り合ってない可能性が常にあります。そこを意識してデータは扱いましょう。人工知能は全てがデータで語れるわけではありません。
 
 
さて医療のデータは患者様の貴重なデータによって構成されています。すなわち漏洩が許されません。よって患者さんのデータをUSBで持ち運べるようにする、病院のサーバーをインターネットにつなげるなどは避けられるべき行為です。
 
一方で人工知能の研究には多大なるデータが必要です。犬と猫の画像が何千枚もデータセットとして存在していることで、多くの研究は進んできました。人工知能と医療の研究が進みにくいのはデータの閉鎖性が一端です。私の大学病院でも医療情報は非常に厳しく管理され、必ず倫理審査委員の定期的なチェックが入ります。
 
よって医療データを持ってる人間とコネクションがある人間しか「医療と人工知能機械学習」の研究はできないことになります。それは仕方がないことです。しかし米国ではその常識を覆すようにMIMICというデータベースがあります。こちらは米国の病院と大学が協力をし11年分の救命救急室ICUのデータを全て公開しています。データは倫理講習を受けると、簡単に得ることができます。SQL形式でデータを取得できます。とても便利です。しかし急性期の病態しか扱えないのが欠点ではあります。
 
MIMIC2の説明書はこちらです。

http://physionet.org/mimic2/UserGuide/UserGuide.pdf

 

この医療データの特殊性は、Google DeepMindなど医療と人工知能の最先端の研究を行っている人々も大変気にしております。DeepMindはイギリスの病院と連携をし100万人以上の患者データに自由にアクセスすることができます。しかしイギリス国民から「私の知らないところで私のデータがなぜ使われとるのだ」と不満が募るわけです。そのためにDeepMindは、「あなたの医療データはいつ使われ、どのように使われ、それは安全な場所に今もある」と言えるためのシステムを構築しているそうです。

さてMIMIC2の説明に入ります。2016年12月現在、MIMIC2は廃止され、MIMIC3に移行しています。
よって下記の記事は意味がありません。しかし雰囲気をつかむという理由で掲載しておきます。
 

1:倫理講習

サイトでユーザー登録をします。
 
ここでひたすら講義を聴き、問題を解きます。
そして8割以上の正解で証明書を手に入れることができます。
 

2:MIMIC2の利用申請

そしてPhysioNetに向かいます。
こちらでまずユーザー登録を行った、あとログインすると、様々なプロジェクトが見えます。
 f:id:keivard:20141102002016p:plain

 

まずこのPhysionetというサイトで、先ほど手に入れた証明書をアップロードします。(Training Certificateという箇所)
すると自分のアカウントには、証明書が添付されるわけです。

 

この状態で初めてMIMIC Ⅱ Clinical Databaseというものに登録します
下記のProjectから MIMIC Ⅱ Clinical Databaseを探してくださいf:id:keivard:20141102001904p:plain

3:メールの返信

登録すると、その後、メールが届き、様々な個人情報の登録を求められます。
 
 
それに返信し、使用許可がおりれば、いよいよMIMIC2が使えるわけです。
ここのウェブサイトがSQLを簡単に発行できます。
 
4:ひとまずquery builderを使ってみましょう。