AUGRIM

AUGRIM~医療と機械学習を正しく伝える

「医療分野で応用されてる機械学習(人工知能?)」は未だない

早速だが、この記事を見て欲しい。

itpro.nikkeibp.co.jp

 

まず誤解がないように、これだけはハッキリさせておくと、医療分野に応用されてる、つまり病院に配置されてる機械学習、深層学習はまだない。(人工知能と思ってもらっても大丈夫です。)

 

さてこの記事の図を見て欲しい。

f:id:keivard:20161220134757j:plain

取り組み = これからやります。という宣言だけだ。

また集団学習、深層学習、自然言語処理は独立して存在する技術ではない。ハッキリ言って意味不明な記事だと思う。更に言えば、患者さんの元に上の技術が届くのは少なくともあと5年はかかるだろう。

このような誤解を招くような誇張した性質の記事は、どの分野でも常に起こり続けていることなので、毎回「それは違う」と言っても無駄である。しかし迷惑を被るのは、患者であり、また企業や団体である。この分野の方に今一度ご確認頂きたいのが、鵜呑みにしないこと、である。

 では「この記事は本当か?」「私のガンはこの治療で治るのか?」と誰に聞くことができるのか?今現在、この領域の専門家は少なく、街の医者に行っても答えは教えてくれないだろう。そういう場合は、遠慮なく自社に問い合わせてほしい。

AUGRIM

 

今日は、代わりに既に行われている研究、なおかつ医療応用が秒読みな技術を紹介しよう。

 

一つ目: 遺伝子の変異を決定する有名なアルゴリズムが深層学習に変更される可能性がある

Creating a universal SNP and small indel variant caller with deep neural networks | bioRxiv

今までの生物学の研究では、「あなたがガンになりやすい確率は、一般的な健常者より1.5倍高い」ということを発見するのが流れでした。その研究のために必要なのは、ガンになった人と、ガンになってない人。この二つのグループの遺伝子を検査して統計学的に有意差がある変異を探していました。そこで面白いのが、このような研究は世界各国で行われているのですが、どの研究も使っているソフトウェアが同じということです。GATKと呼ばれるソフトウェアを使っていました。*1

ここで研究を紹介します。今回の研究では、深層学習を使って以前のGATKアルゴリズムより精度の高い手法を開発しました。つまり今まで発見していた遺伝子の変異がより高い精度で見つかるようになるということです。

この手の話は、使ってるゲノムシークエンサーにも依存するため一概には言えませんが、それらを踏まえても米国食品医療品局FDA-administered variant calling challenge*2 で最も精度が高い手法でした。今後、このアルゴリズムが普及し遺伝子検査の精度が高まることが期待されます。

 

二つ目: 個別化医療に置ける深層学習を利用したアルゴリズム

www.fronteo-healthcare.com

こちらの会社の「がん個別化医療AIシステム」と言うのは、正直内容がわからないので、何とも言えません。ただ学術的な世界で、包括的な意味での「がん」に対して個別化したアプローチを取って成功している例は未だに知りません。よくある研究の類としては、「あるがんの遺伝子変異に対して、ある抗がん剤はこれぐらい効果があった」と言うような研究です。

 おそらくここでFRONTEOが言いたいことは、IBMのWatsonと同じく論文検索でしょう。ある患者のがんにおける遺伝子変異を検索クエリーにし、その遺伝子変異特有の治療法を研究している論文を検索することです。これはある意味個別化ですが、個別化のレベルが非常に低い。より医療に踏み込むとすると、「この患者の遺伝子変異、肝臓腎臓の薬の代謝量、がんの大きさ」全てを包括して、「この患者に適切な抗がん剤の組み合わせ、種類、投与方法」と言うのがわかれば、個別化医療でしょう。しかしFRONTEOがやっていることは論文検索だけのように思います。これを人工知能と呼ぶか?これをAIと考えるか? それはまた別の議論ですが、何でもわかるAIというのは存在しないことに留意しましょう。

 

 個別化医療と言うのは、患者の身体的、精神的、社会的背景を踏まえて適切な治療を施すことです。しかしそのような複合的な問題は、今の人工知能では絶対に最適化できません。データもありませんし、精神的なもの、社会的なものは数値化が難しいでしょう。しかし進んでいる研究分野はもちろんあります。一つ深層学習を利用した例をご紹介しましょう。(#人工知能とは、このように個別化医療に使われます。その正体は様々で、今回は因果推論という分野のモデルがAI、人工知能と呼ばれるわけです。)

 

U. Shalit, F. Johansson, D. Sontag. Estimating Individual Treatment Effect: Generalization Bounds and Algorithms. arXiv:1606.03976 Preprint, 2016 

 

こちらにスライドもあります。

いわゆる「反事実推定」と言われる分野です。例えば糖尿病に対して、2種類の薬A, Bがあります。今患者に対してAを使った場合、血糖値は10下がりました。しかしBを使っていたら、どうなっていただろう。と言うような問題設定です。

このような問題設定はCausal Inferenceと調べると関連論文が出てきますが、深層学習が研究される、だいぶ前から研究されました。特に有名なのがPropensity Scoreというものですが、医学研究にのみ有名な研究な気がします。このような考え方は、機械学習を専門にやってきた人だと、あまり馴染みがないかもしれません。下記のような素晴らしいまとめをご参考いただければなと思います。

統計学における因果推論(ルービンの因果モデル) – 医療政策学×医療経済学

 

さて本題の論文ですが、要は治療薬Aを受けた群とBを受けた群の特徴をうまくマッチさせましょうということです。論文紹介は骨が折れますので、またの機会に紹介させてください。