AUGRIM

医療と機械学習を正しく、簡単に伝える

電子カルテのデータの活用法~人工知能は病院に来るのか?自然言語処理と医療テキスト

人工知能で医療をやりたい」という話は非常に多いですが、その実態は複雑で、臨床現場を知らないと「どこからデータが出てくるのか」ということすらわかりません。

 

医療データというのは電子カルテの中に保存されています。その電子カルテはラボデータやCT画像を管理するソフトウェアと連携することで電子カルテ画面の一覧でそれらを見ることができます。

 

さて今回は電子カルテのデータが過去にどのように研究されてきたのかを紹介します。

そもそも日本の電子カルテの導入率は50%ありません。これはアメリカでも10年前は同じでした。しかし米国では国が主導で3000億円をかけて病院に導入していきました。(HITECH2009を参照してください)

 

「なぜ導入しないのか!!」と思われたあなた、それは正しい感覚です。しかしコストが高い、日常業務にどれだけ支障を来すか不明、という問題があり、多くの病院は電子カルテに移行することを躊躇しています。

ASCII.jp:日本はまだ35% 電子カルテがなかなか普及しない理由|ASCII×クリプラ 電子カルテきほんのき

 

そして電子カルテが導入された場合、人工知能は病院のいつ入るのか?という疑問です。この疑問には、電子カルテが自由文章で書かれた記載である点が関係します。多くの機械学習モデル、人工知能モデルで簡単に実験でき、精度も保証されそうなデータ対象はデータに対称性があり、構造化された画像データや正規化された行列データです。一方で自然言語処理にも代表されるようなテキストデータは構造化されておらず非常難しい。

 

もちろん研究は盛んに行われており、それらを全て紹介するのは難しいです。よって今回はみんな大好き、人工知能、深層学習と関連づいた医療データの研究を紹介します。

まず今回はこの6つをまず上げます。Deepと論文のタイトルに付いていて、有名なものを載せます。

 

Doctor AI Heart Failure Prediction

[1511.05942] Doctor AI: Predicting Clinical Events via Recurrent Neural Networks


Med2Vec EHR Concept Representation

[1602.05568] Multi-layer Representation Learning for Medical Concepts


eNRBM Suicide risk stratification 

Learning vector representation of medical objects via EMR-driven nonnegative restricted Boltzmann machines (eNRBM)

 

DeepPatient Multi-outcome Prediction 

Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records | Scientific Reports

 

Deepr Hospital Re-admission Prediction 

[1607.07519] Deepr: A Convolutional Net for Medical Records


DeepCare EHR Concept Representation

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7801947

 

今日はその中の一つ、[1511.05942] Doctor AI: Predicting Clinical Events via Recurrent Neural Networks を詳しく紹介します。(2015年の論文ですので少し古いですね。)

 

目的と手法

Doctor AIということで患者の病歴や症状から、患者の病気の名前とそれに対して行った治療の方法をRNN(Recurrent Neural Network)を用いて推定するというモデルを作成した。

 

データ

時系列データです。8年間で260.000の患者を解析対象にしました。多くの医療データはテキストの時系列データです。更にt回目の電子カルテと, t+1回目の電子カルテは引き継いで描かれることが多いので、同じような内容でマイナーチェンジなものが増え続けます。

 

結果

特異度79%まで診断することができました。しかも施設間であまりブレない頑強なロバストなモデルができた。

 

RNNの構造は特に真新しいものでないです。

f:id:keivard:20170613110749p:plain

 

僕としては他の手法との比較が面白かったです。上述したようにテキストデータは解析が難しい。ましてや深層学習など使うと、一層話が難しくなるからです。

f:id:keivard:20170613110857p:plain

そして結果がこちらです。最もよく登場する単語をベースに分類したもの、ロジスティック回帰したもの、多層ニューラルネットと比較して、今回のRNN-IRは精度が良いです。

ちなみにRNN-1-IRとはskip-gramを使って単語ベクトルを良い感じに作ってからRNNに投げたということです。RNN-1は単語ベクトルをランダムに振っているということです。これは自然言語処理系のタスクではよく行われます。ランダムにベクトルを振るよりある程度ベクトルを作り込んだ方がうまくいくことはわかっています。

 

話は変わりますが、この研究者を私はとても尊敬しています。

Edward's Personal Web Page

 

さて、このようにDeepで成功している人工知能と皆んなが呼びたがるようなモデルは医療データ、カルテ解析の中でも存在します。その他の論文に興味があれば、どうぞお読みください。(自社は共同研究もウェルカムです!AUGRIM )

 

また自社では日本語の医療単語ベクトルを高品質、高精度に作成しており販売もしております。そちらの方もご興味があれば、ご連絡ください。