AUGRIM

株式会社AUGRIM~医療と機械学習を正しく伝える

NIPS2016の医療ワークショップのまとめ

こんにちわ。先週行われたNIPS2016の医療ワークショップについて書きます。

(初学者の方は機械学習=人工知能とざっくり思ってもらっても大丈夫です。

ただ一つ強調したいのは、人工知能は何でもできるわけではありません。むしろ何もできません。

現在の人工知能は電卓のようなものです。決められたことしかできません。ガンを治すこともできなければ、病気になることは絶対に防げません。

人工知能ができるのは、例えば糖尿病に5年後なる確率をだいたい予測できるなどですが、毎日お酒を飲んで大量に印象句をしている人が糖尿病になりそうなのは、計算しなくても僕らは直感でわかります。2016年現在、医療における人工知能とはその程度でしかありません。笑)

 

そもそも機械学習の国際会議で応用系のワークショップが盛んなのは素晴らしいことですね。常に応用を考えなければ意味がないと、NIPSにいる基礎系の研究者は誰しもが思っています。それゆえに、2012年ICMLでは、機械学習の研究者に対して物を申す論文が大きく注目されたわけです。下記ブログは素晴らしく整理されております。

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶

 

さてさっそく本題に入りたいと思います。

まず最も大事なことは、「完成された研究を発表し合う」というより、「発展途上の研究を一緒に現場に応用するには」という点がテーマです。だからワークショップに出す論文も「1論文あたりページ数は上限が5枚」と定まっており、その代わり、可能な限り幅広いテーマを皆んなで議論するというイメージです。

 

まず採択された論文テーマが50以上ありますが、そのうち23本は「何かを予測する」論文です。非常に驚きです。何を予測してるか簡単にあげますと、
(詳しくはこちらを見てください)

とあります。ここで一本一本、論文を読んでいくと、入力データは画像か、カルテの自然言語か、血液データか。更には時系列データか。予想する出力値は生存期間か、発症したかどうかか。などあります。

 

#「予測」=人工知能と思われるかもしれませんが、統計と機械学習の違いは何か?と疑問に思ったあなたへ、簡単に説明します。

統計学はデータを「説明」することにより重きを置く

機械学習はデータから「予測」することにより重きを置く

 

おそらく多くの方が「医療と人工知能」「医療と機械学習」でイメージするのは、何かを予測する上のような研究だと思います。これらの研究はこのワークショップ以外にも大量に行われております。疾患の予測というのは、医療が専門ではない方にとってもわかりやすい。故に大量に研究がされている。試しに「deep learning OCT prediction」とでも調べると一瞬で論文が出てきます。https://arxiv.org/pdf/1612.04891.pdf

 

しかし、予測するだけでは無意味です。医療従事者は、「どのステージの患者で、感度と得意度がどれぐらいなのか。予測に使った検査値は、どのステージで取られたものか」など非常に重要な点が残ります。なので、「ただ予測しました」というのは何も語ってないのに等しい訳です。私が人工知能ブームで恐れているのは、そのような点です。

 

さて前回も述べましたが、医療データの特徴は、

  • 「肺がん」という一つの病気をとっても、病気の進行の多様性は数多い
  • 医師が記録をしたい、測定したいと思わない限り、結果が残らないので、欠損値が多い
  • 人体とは生まれてから死ぬまでなのだが、ある病気が発症する4,5年前からしか最大でもデータが取れない(50歳で肺がんが発症しても40歳の時のデータは測定されてない)
  • 患者が来たい時に来るので不定期な時系列データになる
  • ラベルが付いてないデータが当たり前かつ、ラベルがついていても、病院ごとで違うことが多いし、信頼はできない (つまり、他院で肺がんと診断されるかもしれないが、他の病院では肺炎と診断されるかもしれない)

 

「じゃあ50本中、疾患の予測以外の論文25本は何をしているの?」というと、医療データの特徴をうまく処理できるようなアルゴリズムの開発。その他には、

  • 乳がんを意味がある形でサブ - クラスタリングする*4
  • アキレス腱断裂におけるリハビリテーションでは、患者の幾つものデータが欠損している。どのようにデータを補完し最適なリハビリを提供するか *5
  •  アメリカの医療コードを正準相関分析をして意味のある特徴量を見つけ出し、大腸憩室炎の発症を予測する *6

 

疾患対象は多岐に渡ります。というよりも、「手頃なデータがあるからやってみよう」という雰囲気を何年間か見ていますが感じます。すべての医療データに対して、予測かデータ補完かサブクラスタリングができるわけです。つまりデータがあれば論文の書き用はあるという印象を受けます。

 

他にも「ある部分を予測して切り出してくる」という論文もあります。今回ですと、CTで肝臓とリンパ節の部分を切り出してくるアルゴリズムの開発などがありました。

その他画像では、「様々な部位のX線画像を学習する。そして手のX線画像は、どの辺りの特徴で手と認識されるか」というようなわかりにくい問題設定の研究 *7もありました。この手の研究は、「X線画像を見て医師は肺がんを診断しているが、同じように深層学習も肺がんを診断するとき、人間と違う特徴量をつかってるかどうか知りたい」というような時に有用ではありますが、有用になった例の研究は私の知る限り知りません。

今年は画像系の研究がworkshopで少なかったように感じます。

 

 

今回はそのうち一つについて僕が好きだった論文を紹介します。これは「データがあるからやった」というよりも医療を最適化するうえで、現場のデータをどうすればよいかという問題を解こうとしています。

[1611.07663] Learning Cost-Effective and Interpretable Regimes for Treatment Recommendation

 

問題設定

医師は日々決断をせまられる。薬の投与量の変更や使用している薬の中止など。彼らはその決断を、目の前の患者を見ながらサジ加減調節することが多い。大量にデータがあるのにも関わらずそのようなことを行ってしまう。このように医師が行動をとってしまう理由は3つある。まず同じ患者はこの世にいないので、結局目の前の患者の情報が第一であるから。次にインターネットで情報を集めるのが面倒。さらに治療方針を再度変えるとお金がかかる。

 

これに対して現在の医療では、手作業による治療ガイドラインアルゴリズムが偉い方々の学会から毎年改定されて公開されている。これは作成コストが高すぎるのではないか。彼らが行った研究では、簡単に言えば「目の前の患者に最適化された選択肢を提示し、そのコストも計算し医師に見せる」ことを機械学習でやろう。というものです。

 

手法とデータセット

Figure 1を見てもらいたいのですが、このような画面を出力したいわけです。そのために彼らはルールの最適化を行います。あるルールの集合をレジメと呼び(呼吸機能が悪くなったら、酸素を入れるというのがルールのひとつの例です)、このレジメがコストが一番かからず患者の病気が一番早く良くなれば、一番良いレジメということです。それをマルコフ過程 + 木構造に乗せて最適化していきます。(有名なAlphaGoと同じ仕組みです)

データセットは、彼らは喘息の患者を対象に行いました。入力データは、年齢、性別、身長体重、呼吸機能などです。介入は2種類で速攻型吸引薬、コントロールのための薬物です。出力は、どの程度の期間発作が治まっていたか。というものです。これらの中から「最もコストが掛からず、発作が治まってる期間が長いレジュメ」というのを推定します。

 

結果

彼らのフレームワークで研究したレジュメは、人間の考えたものより良い治療ができるという結果が出ました。治療にかかったコストもわずかながら彼らのフレームワークの方が優れていました。

 

私が思うこと

米国ならではの研究で素晴らしいと思います。日本は、国民全員保険に入っているので、医療費のコストなどを一般市民が認識する機会がありません。しかし米国ではそれが普通です。このように医療費の最適化を真剣に考えている点は素晴らしいと思いました。人工知能で病気を診断する以外にも、医療に人工知能が役立つアプローチは無限にあると思います。