AUGRIM

AUGRIM~医療と機械学習を正しく伝える

ICML2017特集 part2

前回に続き、今回もICMLで発表された論文をレビューします。

 

実際に、機械学習(or深層学習)と医療に関する発表は多数あり、その中で筆者が直接聞いて特に面白かったと思うものをご紹介します。

 

ICMLでは、論文が分野ごとに分けて発表されます。Health Careのセクションでは次の5本が発表されました。

 

1. H. Zhou 他, When can Multi-Site Datasets be Pooled for Regression? Hypothesis Tests, $\ell_2$-consistency and Neuroscience Applications

2. A. Alaa 他, Learning from Clinical Judgments: Semi-Markov-Modulated Marked Hawkes Processes for Risk Prognosis

3. J. Futoma 他, Learning to Detect Sepsis with a Multitask Gaussian Process RNN Classifier

4. W. Dempsey 他, iSurvive: An Interpretable, Event-time Prediction Model for mHealth

5. M. Zhao 他,  Learning Sleep Stages from Radio Signals: A Conditional Adversarial Architecture

 

個人的に新鮮に感じた発表は5番目の論文で、機械学習を使って睡眠のステージを予測する研究成果が報告されました。今回はこの論文で述べられていることをまとめてみます。以下の図はプレゼン資料や原論文に用いられていたものを使用しています。

Learning Sleep Stages from Radio Signals: A Conditional Adversarial Architecture - YouTube

 

よく知られているように、睡眠には幾つかの段階があります。

1. 起きている状態

2. 浅い眠り

3. 深い眠り

4. レム睡眠(急速眼球運動を伴う睡眠) 

そして、睡眠状態と脳の活動には密接な関係があるため、睡眠状態を知ることには意味があると考えられます。たとえば、深い眠りの状態は細胞の成長や筋肉の修正、記憶の定着などに本質的な役割を果たしています。

 

睡眠と脳の活動に関する研究は数多くありますが、この研究の新しさは脳の活動を直接調べるのではなく、被験者が眠っている見た目の様子そのものから、被験者がどの睡眠状態にいるかを予測しようとしています。

f:id:Longman:20170816215657p:plain

 

 

従来の睡眠に関する研究では脳波を測定する機械を被験者の脳につけたり、被験者がMRIに入ったりして実験を行っていましたが、本研究では被験者は自然な状態でベッドに入ったままで、外部のWi-Fiのシグナルのみから睡眠状態を予測するモデルが作られました。

 

モデル

f:id:Longman:20170816214320p:plain

この研究の優位性は、被験者が普段生活している家にあるベッドで実験が行えることでした。したがって、睡眠とは関係ない部屋の独自の特徴などのバックグラウンドに由来するノイズなどを取り除く必要があるため、Dという関数が用いられています。ここでxは被験者から得られたWi-Fiシグナルをインプットです。

 

データセット

25の異なるベッドルームにおいて、それぞれ100日間の睡眠データが使われました。

 

結果

脳波を直接観測することなく、Wi-Fiシグナルのみから睡眠状態が判別できるだろうかと疑問に感じるわけですが、実際にかなり高い精度が得られることがわかりました。

 

f:id:Longman:20170816220808p:plain

上の図は同一人物の同時刻での睡眠状態を表したデータです。図の上段は測定器を着けた状態での測定結果、下段は論文で提示されたモデルによる予測結果を表しています。91.2%も整合することがわかりました。また、予測結果が最も悪い場合でも、71.2%の整合性が得られたと報告されています。平均は80.4%だそうです。

 

結論

睡眠状態をモニタリングする際に、従来まで行われてきたような測定器を体に取り付ける方法以外に、単に被験者の体から跳ね返ってくるWi-Fiシグナルを観測するだけで、睡眠状態が高い精度で予測可能であることが示されました。

 

このような、直接脳波を観測することなく、脳の状態を予測する研究は今後ますます重要性が高まってくることが期待されます。特に、脳科学人工知能という学術的観点からも非常に興味深いです。

 

弊社AUGRIMではこのような観点に基づいても研究を行っています。興味を持たれた方はご連絡ください。

 

 

 

 

 

 

ICML2017特集 part1

世界最大の機械学習の国際会議の1つ、ICML (International Conference for Machne Learning) が約2週間後にシドニーで開かれます。自社の社員1名が研究発表をして来ます。

2017.icml.cc

今回から数回にわたり、ICMLで発表される論文の中から幾つかを厳選してレビューを行うことにします。

 

第1弾では、生命・医療系の論文に注目します。本会議と併設されて行われるワークショップ、WCB (Workshop on Computational Biology)はがん研究の屈指の研究所であるMSKCC (Momorial Sloan Kettering Cancer Center) のメンバーらによってオーガナイズされ、がん研究のスペシャリストが集う場として必ず毎年開かれています。論文の一覧は以下のURLからご確認いただけます。WCB @ ICML 2017 - Accepted Abstracts

 

今回はこのワークショップで発表される次の論文に焦点を当ててみます。

Hatice U. Osmanbeyoglu, Christina S. Leslie

Modeling the impact of somatic alterations in ubiquitin pathway genes across human cancers WCB_2017_paper_8.pdf - Google ドライブ

 

研究の目的

私達の体内には、ユビキチンという数多くの生命現象に重大な影響を与えるタンパク質があり、細胞内の他のタンパク質と結合する(ユビキチン化)ことにより、細胞内で不要になったタンパク質を除去する働きを有しています。仮に、タンパク質のユビキチン化に異常があると発がんリスクが高まることが知られています。このユビキチン化にはおよそ600種類あるユビキチンリガーゼと呼ばれる酵素がタンパク質に作用が影響しています。また、タンパク質のどの塩基にこれらのどのユビキチンリガーゼが作用するかは不明で、がんに対しての直接的な理解は得られていません。この問題に計算生物学的に取り組むのが本研究の目的です。

 

方法

本論文では、ガンの遺伝子発現を予測するために、DNAの転写因子の活動に注目しています。以前の記事がん治療・研究に対する計算生物学的アプローチ - AUGRIMでも述べましたが、がんは遺伝子に異常があるため、細胞の増殖するスピードが異常に早くなる病です。転写因子(Transcription Factor)というのは、DNAの配列を認識及び結合することにより、遺伝子の発現をコントロールする機能を備えています。

 

本論文では、リンタンパク質(phosphoprotein)の発現と転写因子の活動を関連させて、片方のデータが与えられたときに、もう片方のデータを予測するモデルが提案されました。

 

ここで、リンタンパク質とは、リン酸基を含むタンパク質の総称で、タンパク質がリン酸化することによって数々の病気が起きることが知られています。特に、異常なリン酸化が起きると細胞の増殖にトラブルが発生し、発がんリスクが高まることが知られています。例えば、世界で最初に発見されたがん遺伝子(scrがん遺伝子)はこのタイプです。また、先に述べたユビキチン化もリン酸化の一つです。

 

f:id:Longman:20170729191343p:plain

本論文で用いられている手法は主に、Osmanbeyogluらによって開発されたLinking signaling pathways to transcriptional programs in breast canceに基づいています。

 

結果

既に知られていた結果と整合性が取れた形で、さらに以前には知られていなかった新しい関係性が示唆されました。

 

以下の図では予測されるTFの活動とリンタンパク質の活動の対応がまとめられています。まず、4つのユビキチンリガーゼ遺伝子とどのTFが関連しているかを表したのが一番右のバーコードのような図にまとめられています。そして、人間の10タイプのがんに対するそれら4つの遺伝子の寄与が上の色付きのバーコードのような図でまとめられています。

f:id:Longman:20170729203849p:plain

 

 

他にも、例えば、TFとタンパク質のつながりを表す図の一つが次のように得られました。

 

f:id:Longman:20170729210434p:plain

そして、TFとタンパク質の相関関係が、例えば次の表で捉えられました。

f:id:Longman:20170729210438p:plain

 

結論

この論文では、人のガンに対するユビキチンリガーゼ遺伝子同士の相互作用を明らかにするモデルが得られました。

 

人工知能とがんについて

 そもそも「がん」に対する現在最も根治的な治療は外科手術です。言い換えれば「手術できるうちに発見をして、がんによる被害を最小限にする」ということです。よって「人間からガンを発生させない」という研究よりは「がんの早期発見を正確に行う」という研究の方が圧倒的に現実感を持った研究というわけです。そういう意味で人工知能が人間よりもガンを早期発見できれば医療の未来は明るいと言えます。

 しかし全てのがんが外科治療で治るのは難しく、薬剤によるアプローチは非常に重要です。抗がん剤の中で最もテーマに上がるのは「耐性」です。それにCancer Heterogeneityという概念が非常に重要であり、弊社も研究を行っています。

 

 次回もICMLに関連する論文をご紹介する予定です。また、弊社AUGRIMからも、がん研究に関する関連論文が2本採択されています。共同研究・製品の共同開発等のご依頼も随時承っておりますので、是非ご連絡ください。

 

 

ところで、人工知能とは? ~Deeper Mindを目指して~

The Imitation Game

空前絶後の"人工知能"ブーム”が訪れている現在では、プログラミングに関する特別の知識がなくても、本やwebサイトに書かれてあることを真似 (Imitate) すれば、誰しもが簡単なAIを作れる時代になりました。

 

実際にプログラムを作成して、初めて画像認識や自動翻訳などを体験したときは純粋に驚くばかりです。それと同時に、この人工知能ブームに影響された多くの方々は、”これは本当に人工知能と言えるモノなのか?”という疑問を持っているはずです。"人工"であることは疑いようがないので、疑問は”コンピュータは知能を獲得したのか?”ということでしょう。

 

現代人とほとんど同じ疑問を持った人物が70年前にもいます。

 

コンピュータの概念を生み出したAlan Mathieson Turing (以下、チューリング)は”機械は思考できるか?”という問に対する論文を1950年に出版しました。チューリングはコンピュータを使って暗号解読に取り組んだことでも知られ、映画にもなっています。

<公式>映画『イミテーション・ゲーム / エニグマと天才数学者の秘密』オフィシャルサイト|大ヒット上映中 

f:id:Longman:20170714140508p:plain

この論文では”機械がどのように振る舞えば、思考しているとみなせるか?”という問に置き換え、"思考とは何か"が論じられています。

 

部屋に男性(A)、女性(B)がいて、別の部屋から第3者(C)がリモートでこの2人に質問するとします。ここで、仮に、実はコンピュータがAの役割を演じたとき、CはAがコンピュータであることを見抜けるか?というのが、チューリングが用意したテストです。コンピュータにとっては、自分がコンピュータであることを気づかれないために、可能な限り人間Aの言動を真似をし、あたかもAが答えているように答えることが、テスト対策だとチューリングは考えました。

 

そして、コンピュータがAを演じていることをCに悟られなければ、コンピュータは思考しているとみなせるだろうとチューリングは提案しています。このテストはチューリングテストと呼ばれています。

 

 

Learning Machines

同じ論文の最後の章でチューリングは現在の機械学習に相当する枠組みを提案しています。彼は、機械が人間を真似するために、学習が必要だと考えたわけです。

(a) 初期状態

(b) 教育を与える

(c) 教育以外の別の経験をさせる

驚くべきことに、これら3つは、現在の機械学習では教師あり学習と呼ばれる学習プロセスと全く同じであることに気づきます。もう少し丁寧に説明すれば、

(A)何もデータが与えられていない状態

(B)データを読み込み、学習する

(C)与えられたデータ以外でも対応できるようにする。(過学習を防ぐ)

というのが、現在の教師あり学習です。

 

そして今

自動応答ロボットや、SNSのチャットボットなど、人間の会話を模倣するAIは既に存在するので、チューリングテストに合格可能という意味において、コンピュータは思考能力を有しているのが、現在のAIです。更に、深層学習や強化学習など、チューリングが思い描いていた以上のことが実現しています。従って、もしチューリングが現代にいれば、我々は既に思考する機械を手に入れた、素晴らしい人類だと驚くかもしれませんね。

 

Beyond

ところで、果たしてこれで満足できるかというのが、次の問題です。まず、チューリングテストの合否は結果のみで判断されることに気づきます。コンピュータが人になり済ませられたかどうか、それだけが思考を有しているかどうかの判断基準でした。70年も昔の考え方なので、このような具合のテストで良いのかもしれませんが、現代においては、人間も多角的に評価しようという風潮ですので、機械の思考能力も多角的に判断すべきでしょう。

 

思考にはレベルがあります。チューリングテストでは思考能力の有無を判断するだけでしたが、今後は高い思考力を有するコンピュータを実現するにはどうすればよいかという疑問が生まれます。

 

そこで、次の問を考えてみましょう。

f:id:Longman:20170714154227j:plain

 

を同時に満たす(x,y)の値を求めよ。答えは(x, y)=(2,1)ですが、いま関心があるのは、この問題をどのように解くかです。たくさん解法はありますが、代表的なものは

 

(1) (x,y)に思いつく限り値を代入してみる。

(2)第1式から、第2式を2倍したものを引き、まずはxの値を求める。その後、xを代入してyを求める。

(3)行列を使って解く。

f:id:Longman:20170714155935j:plain

(4)数値計算ソフトを利用する。

 

解法(1)は誰でもできる、最も簡単だけれども、問題によっては解決までの時間がかかる方法です。

解法(2)は中学校で習う、連立方程式の定石的な解法です。

解法(3)は高校あるいは大学で習う、行列を使った解法です。

解法(4)では算数や数学を知らなくても、パソコンの知識があれば解を求められます。

 

もうお気付きの通り、これら4つの方法を扱うには求められる技術も、予備知識も大きく異なり、思考力のレベルに差が見られます。現代の機械学習だと、解法(1)に習熟した学習モデルが、ある日突然、解法(2)を思いつくなどということは絶対に有り得ないわけですが、人間であれば可能です。さらに、人間であれば、一度数学の知識を手にしてしまえば、(3)の解法を思いつくのはほとんど苦労しませんが、少なくとも現在の機械学習だと(1)から(3)に行くことは不可能です。

 

この例に限らず、人間の場合は仮に他人から習わなくても、より良い解法を考えつくことはごく普通にありますが、コンピュータでは実現できていません。ここに、人間が漠然と抱く、”思考”という概念と、チューリングテストに合格した機械にとっての"思考"に大きなギャップが見られます。

 

今後の目標は、より高い知能レベルの獲得を目指すことがポイントで、問題が与えられたときに、適切な解法を提示できる人工知能が欲しいところです。

 

数年後、仮に人工知能ブームが過ぎ去っても、思考レベルの高い機械の実現と、社会へのより良い貢献を目指して、弊社AUGRIMはさらに研究、開発を進めて参ります。弊社の技術は医療のみならず、様々な分野で利用されています。

 

共同研究、製品開発の受注などは随時承っておりますので、お気軽にご連絡ください。

心電図は人工知能が医者より正確に読める

タイトル通りの論文がStanford大学から発表されました。

ついに人工知能が医者の仕事を奪い始めたか?と思ったあなたへ。医療は診断が全てではありません。診断は医療のごく一部です。こちらの記事をお読みください

 

[1707.01836] Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks

               f:id:keivard:20170707120015p:plain

まずは簡潔に話をまとめます。

目的:  

心電図から不整脈を発見する機械学習を開発

手法:

34層の畳み込みニューラルネットワークを利用

データセット:

29,163人の患者から合計で64,121個の心電図データ

(#過去研究のデータセットより500倍データ量が大きい)

入力: 心電図

出力: 12の不整脈の種類, sinus rhythm, noiseの14種類のクラスを予測 (各種類どういう心電図か見たい人は後ろの画像をどうぞ)

精度:

6人の循環器内科医より精度が良いモデルを作ることができた。感度が80%,特異度が78%のモデル。

課題

未だに対応できていない心疾患がある。これに対応して行きたい。

              f:id:keivard:20170707120053p:plain

 

f:id:keivard:20170707120206p:plain

コメント:

 心電図の予測というのは新しいものではなく、随分前から多くの研究があります。私がこの研究で驚いたのはデータの整備です。機械学習というと、「予測精度の高いモデルを開発した」という研究ばかりに目が行きがちですが、このようにデータを幅広く収集することも大変重要な研究かと思います。

 またどのようにデータを取得したのか?と疑問に思った方。彼らはZIOパッチというウェラブルに心電図を計測できる機器です。(いわゆるHolter心電図です)

irhythmtech.com

 

弊社AUGRIMではこの論文の他にも、機械学習を用いて医療に関する様々な研究を行っております。共同研究や製品開発のご依頼などは随時承っておりますので、お気軽にご連絡ください。 

 

がん治療・研究に対する計算生物学的アプローチ

 人工知能を用いて医療をより良くする研究は非常にホットな話題で、特に新薬の開発やがんの研究などは注目を集めています。

 

 例えば、クイズ王とクイズバトルをして勝利したことで一躍有名になったIBM人工知能Watsonは、今やがん治療に欠かせない新しい頭脳となるべく、世界トップレベルのがん研究所であるメモリアル・スローン・ケータリング・がんセンター(Memorial Sloan Kettering Cancer Center) との共同研究で目覚ましい成果を上げています。

forbesjapan.com

www.mskcc.org

 その他にも国内企業としては、深層学習に特化したベンチャーPFNもガン研究に非常に力を入れいます。

 

 ところで、機械学習の世界最大の国際会議の一つであるICML (International Conference on Machine Learning)では毎年、メモリアル・スローン・ケータリング・がんセンターが主催するワークショップが開かれています。弊社の論文が2本とも評価され、このワークショップで発表させていただく事になりました。WCB @ ICML 2017 今回はこの内の1つの論文について簡単にご紹介します。

研究の出発点

 まず、がんについて少し説明します。がんは遺伝子に異常があるために細胞の増殖が異常に早く進行する病気です。したがって、がんを治療をするには、がん遺伝子と通常の遺伝子を区別することが最初の課題です。

 がん化しやすい遺伝子というのがもともと私達の体内にありますが、この遺伝子はがん化するまでは正常の遺伝子です。この正常な場合と異常な場合を区別することが、がん治療の出発点です。具体的には遺伝子の発現量を比較することにより、どの程度がん化しているかがわかります。

がん細胞の複雑さを明らかにする

 ところで、通常、がんが発見されるレントゲン写真やCT画像などでは遺伝子は当然見えず、大まかに細胞ががん化していることだけがわかります。しかし、細胞の中にはたくさんの遺伝子があり、一口にがん細胞と言ってもその構造は非常に複雑です。つまり、どの遺伝子がどの程度がん化しているかを突き止めて初めて、がん細胞の全体像が見えるわけです。下記ではClonal Theoryと呼び、ガン発生初期の段階では単一のがん細胞しかいませんが、進行して行く中でがん細胞の中でも個性が生まれ(Sub Population)、多様性を生み出していきます。

f:id:keivard:20170704111014p:plain

 そして、腫瘍の中でも場所によってその遺伝子の発現量は一般に異なっており、これを腫瘍内不均一性(tumor heterogeneity)と呼びます。私達の論文ではこの不均一性を数学的モデルを用いて表し、数百種類もある全ての遺伝子の発現量を一目でわかる図を作成しました。腫瘍内不均一性について詳しく学びたい方は下記を御覧ください。

Tumor Heterogeneity—A ‘Contemporary Concept’ Founded on Historical Insights and Predictions | Cancer Research

 

f:id:Longman:20170703224414j:plainf:id:Longman:20170703224555j:plain

 私達が用いたデータでは1つの腫瘍を6分割し、その腫瘍の各細胞にある遺伝子の発現量(Single-Cell Sequencing)が別の場所の細胞の同じ遺伝子の発現量とくらべてどの程度変化したかを表しています。z座標が遺伝子発現量、(x,y)座標で細胞の位置を表し、発現量の増減は赤・青で色分けされています。矢印の方向は遺伝子発現量の勾配を表しています。この勾配の方向が多様であるほど我々は多様性が高い腫瘍だと判定しています。

 つまり左の図では、腫瘍内不均一性の度合いが著しい、high heterogeneityを表しています。図からは、一つの腫瘍内に場所によって発現量が大きく異なる遺伝子があることが明らかになりました。右の図はlow heterogeneityを表しています。

 

腫瘍内不均一性の可視化が何の役に立つか?

がんの治療において、腫瘍内不均一性を知ることは非常に重要です。なぜなら、治療によって腫瘍が縮小しても、治療抵抗性のあるがん遺伝子が残る(これがhigh heterogeneity)可能性があり、やがてそれらが増殖してがんの再発に至ります。我々の研究は腫瘍内不均一の動きを勾配という観点から分析し可視化するものです。これにより既存のガンを新たなクラスタリングで分けることができ、予後の指標の一つにできる可能性があります。

 

弊社AUGRIMではこの論文の他にも、機械学習を用いて医療に関する様々な研究を行っております。共同研究や製品開発のご依頼などは随時承っておりますので、お気軽にご連絡ください。

機械学習で因果関係を予測する~どの薬がこの疾患に効果があるか

医師が最も関心があるのは「この疾患を治すにはどの治療法がベストか」という問です。患者にとっては、「この薬を飲めば、病気が治るのか」は最大の関心事です。

 いわゆる「医療と人工知能」の研究で、「この眼の画像はなんの病気か?」という問題は殆ど研究分野としては落ち着いてきています。一方で今日考える「この患者にこの薬を投与するとどうなるか?」という因果推論が最もホットトピックです。

 

今回は機械学習でこの問にどのようにアプローチするのかを考えてみます。

 

物事をもう少し一般的に考えてみると、この課題は「機械学習を用いてデータ間の因果関係を把握できるか」という問に言い換えられます。先程の場合だと、疾患というデータに対して、ある治療を行った結果、疾患が治るのか治らないのかを機械学習を使って予測したいということです。

因果関係と相関関係

機械学習で因果関係を予測するとはどのようなことなのかをもう少し説明します。

 

「アメリカ人一人あたりのマーガリンの消費量とメイン州の夫婦の離婚率には正の相関がある」という報告があります。相関率は99%ですから、データとして見れば密接に関係していそうな雰囲気があります。

 

f:id:Longman:20170616144111p:plain

http://www.bbc.com/news/magazine-27537142 

(図は http://www.tylervigen.com/spurious-correlations より引用)

 

では、メイン州にいる夫婦の離婚率を減らすには、家庭に置くマーガリンを減らせばいいのでしょうか? 残念ながら、上のデータはこの問には全く答えてはくれません。離婚率とマーガリンの消費量の間の異なる因果関係が同一の相関間関係を与えるパターンがあるからです。

 

f:id:Longman:20170616152624p:plain

 

この図ではマーガリン消費量や離婚率とは別の原因A(例えば就労率、平均給与所得など)があって、両者に働いている場合を表しています。左側の図では、マーガリンの消費量の増減が離婚率の増減に影響を与えている場合を表しています。中央の図では、実はマーガリンの消費量と離婚率には直接の関係はないけれども、Aという共通の原因が両者に同じように影響を与えている場合を表しています。右の図は左の図でマーガリンと離婚率を入れ替えたものを表現しています。

 

このように、極めて高い相関関係があるデータであっても、そこから因果関係を予測するのは非常に難易度の高いタスクであることがわかります。

統計的因果探索

上で考えたような、相関関係と因果関係の間のギャップを擬似相関と呼び、このギャップを明らかにする試みが統計的因果探索です。

 

現在の機械学習では、どのような方法で因果関係が調べられているのかについて、幾つかの論文を紹介します。近年、機械学習ではこの分野の発展が目覚ましいので他にも非常にたくさんの論文があります。

 

C. Louizos et al., "Causal Effect Inference with Deep Latent-Variable Models"

[1705.08821] Causal Effect Inference with Deep Latent-Variable Models

 

F. Johansson et al., "Learning Representation for Counterfactual Inference"

[1605.03661] Learning Representations for Counterfactual Inference

 

S. Shimizu et al., "A Linear Non Gaussian Acyclic Model for Causal Discovery"

https://www.cs.helsinki.fi/u/ahyvarin/papers/JMLR06.pdf

 

せっかくなので、今回はこの中で最も新しい論文(一番上)について詳しく見てみます。

 

目的と手法

統計的因果探索のためのCausal Effect Variational Autoencoder (CEVA) という新しいニューラルネットワークのモデルを作成した。

 

データ

 

1つ目:既存のモデルとの比較のためのデータセット

 

2つ目:1989年から1991年の間にアメリカで生まれた双子。生まれたときの体重とその後の死亡率の因果関係を調べた。

 

結果

1つ目のデータに対しては、Johansson達のBNNモデル(上記の2番めの論文)と比較して遜色のない成果が見られました。εの値が小さいほど、精度が良いことを表しています。

f:id:Longman:20170616175841p:plain

 

2つ目のデータに対しては、ロジスティック回帰などに比べて、ニューラルネットの層を重ねるごとに、ノイズに対して安定であることがわかりました。

f:id:Longman:20170616180032p:plain

LR1がロジスティック回帰の場合で、nhがニューラルネットワークの隠れ層の数を意味しています。上に行くほど、良い成果であることを表しています。

 

我々は因果推論の技術は10年後の医療に確実に必要で導入されるべきだと思います。人工知能熱が間も無く冷めるでしょう。しかし機械学習の技術者がブームに関わらず、世の中を良くしたいと思い続ければ、医療業界にも「え、これ人工知能なの、知らなかった、便利だねー」というようなことが起こり得るでしょう。

 

弊社AUGRIMでは、統計的因果探索を用いた製品開発・研究も行っております。製品の受注や共同研究のご依頼も随時承っておりますので、ご連絡ください。

 

 

 

電子カルテのデータの活用法~人工知能は病院に来るのか?自然言語処理と医療テキスト

人工知能で医療をやりたい」という話は非常に多いですが、その実態は複雑で、臨床現場を知らないと「どこからデータが出てくるのか」ということすらわかりません。

 

医療データというのは電子カルテの中に保存されています。その電子カルテはラボデータやCT画像を管理するソフトウェアと連携することで電子カルテ画面の一覧でそれらを見ることができます。

 

さて今回は電子カルテのデータが過去にどのように研究されてきたのかを紹介します。

そもそも日本の電子カルテの導入率は50%ありません。これはアメリカでも10年前は同じでした。しかし米国では国が主導で3000億円をかけて病院に導入していきました。(HITECH2009を参照してください)

 

「なぜ導入しないのか!!」と思われたあなた、それは正しい感覚です。しかしコストが高い、日常業務にどれだけ支障を来すか不明、という問題があり、多くの病院は電子カルテに移行することを躊躇しています。

ASCII.jp:日本はまだ35% 電子カルテがなかなか普及しない理由|ASCII×クリプラ 電子カルテきほんのき

 

そして電子カルテが導入された場合、人工知能は病院のいつ入るのか?という疑問です。この疑問には、電子カルテが自由文章で書かれた記載である点が関係します。多くの機械学習モデル、人工知能モデルで簡単に実験でき、精度も保証されそうなデータ対象はデータに対称性があり、構造化された画像データや正規化された行列データです。一方で自然言語処理にも代表されるようなテキストデータは構造化されておらず非常難しい。

 

もちろん研究は盛んに行われており、それらを全て紹介するのは難しいです。よって今回はみんな大好き、人工知能、深層学習と関連づいた医療データの研究を紹介します。

まず今回はこの6つをまず上げます。Deepと論文のタイトルに付いていて、有名なものを載せます。

 

Doctor AI Heart Failure Prediction

[1511.05942] Doctor AI: Predicting Clinical Events via Recurrent Neural Networks


Med2Vec EHR Concept Representation

[1602.05568] Multi-layer Representation Learning for Medical Concepts


eNRBM Suicide risk stratification 

Learning vector representation of medical objects via EMR-driven nonnegative restricted Boltzmann machines (eNRBM)

 

DeepPatient Multi-outcome Prediction 

Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records | Scientific Reports

 

Deepr Hospital Re-admission Prediction 

[1607.07519] Deepr: A Convolutional Net for Medical Records


DeepCare EHR Concept Representation

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7801947

 

今日はその中の一つ、[1511.05942] Doctor AI: Predicting Clinical Events via Recurrent Neural Networks を詳しく紹介します。(2015年の論文ですので少し古いですね。)

 

目的と手法

Doctor AIということで患者の病歴や症状から、患者の病気の名前とそれに対して行った治療の方法をRNN(Recurrent Neural Network)を用いて推定するというモデルを作成した。

 

データ

時系列データです。8年間で260.000の患者を解析対象にしました。多くの医療データはテキストの時系列データです。更にt回目の電子カルテと, t+1回目の電子カルテは引き継いで描かれることが多いので、同じような内容でマイナーチェンジなものが増え続けます。

 

結果

特異度79%まで診断することができました。しかも施設間であまりブレない頑強なロバストなモデルができた。

 

RNNの構造は特に真新しいものでないです。

f:id:keivard:20170613110749p:plain

 

僕としては他の手法との比較が面白かったです。上述したようにテキストデータは解析が難しい。ましてや深層学習など使うと、一層話が難しくなるからです。

f:id:keivard:20170613110857p:plain

そして結果がこちらです。最もよく登場する単語をベースに分類したもの、ロジスティック回帰したもの、多層ニューラルネットと比較して、今回のRNN-IRは精度が良いです。

ちなみにRNN-1-IRとはskip-gramを使って単語ベクトルを良い感じに作ってからRNNに投げたということです。RNN-1は単語ベクトルをランダムに振っているということです。これは自然言語処理系のタスクではよく行われます。ランダムにベクトルを振るよりある程度ベクトルを作り込んだ方がうまくいくことはわかっています。

 

話は変わりますが、この研究者を私はとても尊敬しています。

Edward's Personal Web Page

 

さて、このようにDeepで成功している人工知能と皆んなが呼びたがるようなモデルは医療データ、カルテ解析の中でも存在します。その他の論文に興味があれば、どうぞお読みください。(自社は共同研究もウェルカムです!AUGRIM )

 

また自社では日本語の医療単語ベクトルを高品質、高精度に作成しており販売もしております。そちらの方もご興味があれば、ご連絡ください。