AUGRIM

株式会社AUGRIM~医療と機械学習を正しく伝える

2017年の前半~機械学習(人工知能)と医療の論文を読み~医療はAIでどう変わるか?

今回のテーマは、

「ただ医療データを機械学習で予測するだけで意味はあるか?」

「モデルができた場合、どうすれば病院に届けることができるか?」

答えからいえば

「医師と同じ能力で予測だけでは意味はない。医師の業務を軽減するような予測をする必要がある」ということです。ソフトに画像読み込ませて「がんです」と出るだけでは業務に使えません。「ソフトに画像を読み込ませれば、カルテに医師が書いてる細かな情報と同じことが記載される」など業務の一環をサポートできるように補足できることが大事です。それが今回紹介するGoogle論文*1 です。

 

次に「モデルは大事だが、複雑なモデルよりもわかりやすいモデルが医療では大事。結局人間が判断するケースが多い、その場合、「なぜこのモデルが悪性度4と判断したか」というのが人間にわかることが大事です。」

 

早速本題に入ります。

2017年に入り、Googleを筆頭に、「機械学習で医療データを予測しよう」という論文がニュースで割と有名になりました。*2

money.cnn.com

こちらの成果をざっくり言えば、

「がんの悪性度を判断する病理検査がある。病理医は毎回患者さんの病理画像を見てから悪性度を判定しデータにまとめるという作業をしているが、これを病理医より正確に早くできるようになった」

ということです。ただ「この画像はがん」と予想するだけの論文ではなく、「どの部分が悪性度の高いがんで、それは全体のスライドのX%を占めている」ということまで教えてくれるので、現実問題に沿った非常に重要な問題です。個人的には、現場の医療問題として画像データのサイズが大きすぎる。この現場の問題も彼らは言及しています。

 

その他にも今年はこんなのがありました。

www.inverse.com

上記のように敗血症を事前に予測するというテーマもニュースになりました。この記事では、Q&A方式で研究者が答えているのが面白いです。AIが判断することで医師の責任はどう問われるか、電子カルテのデータ構造やデータのあり方をどう変えれば良いか。など世界共通の悩みに「いまだ答えが出てない」ということを教えてくれています。

 

www.standard.co.uk

こちらはGoogle DeepMindが絡んでいるようです。急性腎不全になる前に患者の血液データからそれを予測したということです。「正直、このような研究は以前からあります。」とか関係なく、救われた家族の話が掲載されていて心が和みます。

ちなみにテーマとしては、私が2015年NIPS Clinical Health workshop*3で論文化しDeepMindからStudent Awardをもらった研究内容に近く肝硬変患者の腎障害予測でした。

 

www.wired.co.uk

医療画像の予測研究は数多くあります。深層学習が現れる前からあります。特に皮膚科や乳がんのレントゲン写真、胸部レントゲン写真、あとは眼底画像。これらは多いです。なぜかというと、健康診断などで取られる機会が多く、医師の見落としが起きやすいからです。

 

 さてまず最初に2017年の研究を紹介した理由としては、「研究自体は以前から多くあった。別に新しい手法ができて2017年じゃなきゃこの研究はできなかった、ということでは全くない」ということを強調したいです。

つまりこのように記事になったりWebで有名になるのは、人工知能に対する過度な期待な表れなわけです。しかし過度な期待には常に期待はずれがつきものです。例えば上で紹介した4つの研究のうち、一つの研究が5個の病院に実際に設置されるのはいつ頃になるでしょうか。

恐らく長い時間がかかるでしょう。それは下記のような理由です。

  • ラボデータをどうやってモデルに入れれば良いのか?
  • モデルは他の病院で有名で精度が高いわけで、我々の病院に当てはまる保証はあるのか?
  • 医師でも直感でわかっていることしか、機械学習は予測していない

一言でまとめるとすればモデルの解釈が全くできていない点と、病院に保存されている医療データの所在と管理方法が古すぎるのが問題です。

機械学習というのは「次に来るデータに対しうまく予測できれば良い」というスタンスを取っており、モデルがいくら複雑になろうと、解釈性が低くても良いとなってる。

(ここでいう解釈性とは、「なぜこのモデルは画像 Xを犬と判定したか」をということです。)これは医療では逆。なんでそう思ったか、というのは知りたい。なぜなら人工知能だけで患者ががんと診断されるのはやはり怖いです。

 

TensorflowやChainerで簡単に実装ができる中で、がんを診断する論文なんて、「簡単に書けるだろう」思われるかもしれない。しかし論文を書くだけなら簡単かもしれないが、実際に機械学習を真面目に勉強し実際の現場に送り込もうとすると「簡単」とは言えない。

なぜなら実装して「ああ、予測精度8割ね」とは終わらず、このモデルの評価をしなければならない。どれくらい汎化性があるか、どのような画像が苦手で間違えたか、特定の画像に病気とは関係いないスケールやノイズが入っていないか。さらにこのモデルを病院内で使ってもらうためには、現状の病院システムのどこに組み込めば良いのか。それは安全なのか。考えることは山ほどあります。

これらをしっかり判断したい。ニュース記事では、予測ができた、予測ができたと騒ぐ。一回落ち着いて欲しい。

 

また今回病気の予測を何からするかというのが今後大事だと思います。

機械学習のモデルにとって画像か数値というのはあまり変わらないかもしれませんが、医師(というか人間)にとっては大きく違います。数値10個を見て判断するのか、画像1枚の行列1つをみて判断するのかでは、やはり後者の方が人間の直感は働く気がします。

すなわち複数の数値データから病気になる確率を予測したりする能力は圧倒的に機械学習(AI)の方が優れている。
それが如実に表れているのは、我々医療従事者は、現場ですぐ計算できるように物凄く近似された予測方程式を使う。ペインの式、eGFR式*4などだ。逆にいえば、そこで先ほどの急性腎不全の予測を数値で行うのは人間には無理です。入力するデータの数が10個以上の場合、僕らはいちいち計算していらられない。じゃあその数値データをどうやってモデルに入れるのか。上述したモデル問題が姿を表す。モデルの解釈と場所が問題になるのだ。


一方で二つ目の問題として、病院内の医療データだ。現在多くの病院は、医療データが存在するサーバーをオフラインにすることでイントラネット内で全てを完結させている。それはそれで一つの手段だが、イントラネット内でも病院の情報は引き出すのが難しいし、不正に引き出すことも沢山できる。それらを安全に簡易に行おうと考えている企業がある。予想通りDeepMindだ。彼らのブロックチェーンに類似する医療データの管理方法の研究がメディアにも反響を呼びました。(この時点で、なんの研究家かはあまり言及していません。ブロックチェーンとだけ言っています)

deepmind.com


今後、医療には莫大なデータの統合が必要です。それは医療データは施設バイアスが激しいからです。例えば車の画像は、だいたい日本の国内なら同じです。しかし血糖値というデータ一つ取っても、地域ごとに測定する頻度や糖尿病に対する患者の意識の差などあり、グローバルに役に立つモデルというのは非常に難しい気もします。だからモデルを個別化させるか、データを統合的に集めるかしか手段がないです。
そこで安全にデータを集約するという意味で、ブロックチェーンのような構造を取るのは非常に良いアイデアですが、計算コストや維持費などが高すぎる。Google DeepMindはきっと年末にはこの点を改善したデータ管理方法を開発するでしょう。

 

我々もデータ管理システムを作っています。(後日記載)

日本が医療と機械学習で進みが遅いのは、圧倒的に「医療と機械学習で技術を持った会社」が少ないからです。そのように技術に飛び抜けた会社が業界をリードすべきです。Google DeepMindのような海外に頼ってしまいたいですが、しかし医療は世界共通ではありません。米国と日本では殆どの疾患で治療法が異なります。米国は米国人の遺伝子と生活にあった治療が存在し、日本には日本のものが存在します。よって日本は日本の医療をリードする日本の技術で飛び抜けた会社が必要です。そういう会社を僕らは目指しています。(   )

臨床データベースMIMICの使い方~なぜ医療における人工知能研究は少ないか

こんばんわ、今日はMIMIC2*1という米国の臨床データベースの使い方を紹介します。
と言いたい所なんですが、使い方の前に、このデータベースは、アメリカのオンライン倫理学習コースCITI*2を取得しなければ利用することができません
今日はその倫理学習コースの取得方法をご紹介します。(若干面倒)
[現在はMIMIC3*3 となっております。MIMIC2の時とは別の倫理コースを受けなければなりません。これについては後日ブログにします。]
 
人工知能に必要なものは何か?」と聞かれるのですが、「機械学習に必要なものは何か?」と言われた場合、これは「モデルとデータ」です。データがなければ学習できません。しかし多くの人が勘違いするのが、「データがあればあるほど、精度が上がって良いんでしょ?」と言いますが、これは違います。そもそも行いたい予測とそのデータ構造にモデルが上手く折り合ってない可能性が常にあります。そこを意識してデータは扱いましょう。人工知能は全てがデータで語れるわけではありません。
 
 
さて医療のデータは患者様の貴重なデータによって構成されています。すなわち漏洩が許されません。よって患者さんのデータをUSBで持ち運べるようにする、病院のサーバーをインターネットにつなげるなどは避けられるべき行為です。
 
一方で人工知能の研究には多大なるデータが必要です。犬と猫の画像が何千枚もデータセットとして存在していることで、多くの研究は進んできました。人工知能と医療の研究が進みにくいのはデータの閉鎖性が一端です。私の大学病院でも医療情報は非常に厳しく管理され、必ず倫理審査委員の定期的なチェックが入ります。
 
よって医療データを持ってる人間とコネクションがある人間しか「医療と人工知能機械学習」の研究はできないことになります。それは仕方がないことです。しかし米国ではその常識を覆すようにMIMICというデータベースがあります。こちらは米国の病院と大学が協力をし11年分の救命救急室ICUのデータを全て公開しています。データは倫理講習を受けると、簡単に得ることができます。SQL形式でデータを取得できます。とても便利です。しかし急性期の病態しか扱えないのが欠点ではあります。
 
MIMIC2の説明書はこちらです。

http://physionet.org/mimic2/UserGuide/UserGuide.pdf

 

この医療データの特殊性は、Google DeepMindなど医療と人工知能の最先端の研究を行っている人々も大変気にしております。DeepMindはイギリスの病院と連携をし100万人以上の患者データに自由にアクセスすることができます。しかしイギリス国民から「私の知らないところで私のデータがなぜ使われとるのだ」と不満が募るわけです。そのためにDeepMindは、「あなたの医療データはいつ使われ、どのように使われ、それは安全な場所に今もある」と言えるためのシステムを構築しているそうです。

さてMIMIC2の説明に入ります。2016年12月現在、MIMIC2は廃止され、MIMIC3に移行しています。
よって下記の記事は意味がありません。しかし雰囲気をつかむという理由で掲載しておきます。
 

1:倫理講習

サイトでユーザー登録をします。
 
ここでひたすら講義を聴き、問題を解きます。
そして8割以上の正解で証明書を手に入れることができます。
 

2:MIMIC2の利用申請

そしてPhysioNetに向かいます。
こちらでまずユーザー登録を行った、あとログインすると、様々なプロジェクトが見えます。
 f:id:keivard:20141102002016p:plain

 

まずこのPhysionetというサイトで、先ほど手に入れた証明書をアップロードします。(Training Certificateという箇所)
すると自分のアカウントには、証明書が添付されるわけです。

 

この状態で初めてMIMIC Ⅱ Clinical Databaseというものに登録します
下記のProjectから MIMIC Ⅱ Clinical Databaseを探してくださいf:id:keivard:20141102001904p:plain

3:メールの返信

登録すると、その後、メールが届き、様々な個人情報の登録を求められます。
 
 
それに返信し、使用許可がおりれば、いよいよMIMIC2が使えるわけです。
ここのウェブサイトがSQLを簡単に発行できます。
 
4:ひとまずquery builderを使ってみましょう。

「医療分野で応用されてる機械学習(人工知能?)」は未だない

早速だが、この記事を見て欲しい。

itpro.nikkeibp.co.jp

 

まず誤解がないように、これだけはハッキリさせておくと、医療分野に応用されてる、つまり病院に配置されてる機械学習、深層学習はまだない。(人工知能と思ってもらっても大丈夫です。)

 

さてこの記事の図を見て欲しい。

f:id:keivard:20161220134757j:plain

取り組み = これからやります。という宣言だけだ。

また集団学習、深層学習、自然言語処理は独立して存在する技術ではない。ハッキリ言って意味不明な記事だと思う。更に言えば、患者さんの元に上の技術が届くのは少なくともあと5年はかかるだろう。

このような誤解を招くような誇張した性質の記事は、どの分野でも常に起こり続けていることなので、毎回「それは違う」と言っても無駄である。しかし迷惑を被るのは、患者であり、また企業や団体である。この分野の方に今一度ご確認頂きたいのが、鵜呑みにしないこと、である。

 では「この記事は本当か?」「私のガンはこの治療で治るのか?」と誰に聞くことができるのか?今現在、この領域の専門家は少なく、街の医者に行っても答えは教えてくれないだろう。そういう場合は、遠慮なく自社に問い合わせてほしい。

AUGRIM

 

今日は、代わりに既に行われている研究、なおかつ医療応用が秒読みな技術を紹介しよう。

 

一つ目: 遺伝子の変異を決定する有名なアルゴリズムが深層学習に変更される可能性がある

Creating a universal SNP and small indel variant caller with deep neural networks | bioRxiv

今までの生物学の研究では、「あなたがガンになりやすい確率は、一般的な健常者より1.5倍高い」ということを発見するのが流れでした。その研究のために必要なのは、ガンになった人と、ガンになってない人。この二つのグループの遺伝子を検査して統計学的に有意差がある変異を探していました。そこで面白いのが、このような研究は世界各国で行われているのですが、どの研究も使っているソフトウェアが同じということです。GATKと呼ばれるソフトウェアを使っていました。*1

ここで研究を紹介します。今回の研究では、深層学習を使って以前のGATKアルゴリズムより精度の高い手法を開発しました。つまり今まで発見していた遺伝子の変異がより高い精度で見つかるようになるということです。

この手の話は、使ってるゲノムシークエンサーにも依存するため一概には言えませんが、それらを踏まえても米国食品医療品局FDA-administered variant calling challenge*2 で最も精度が高い手法でした。今後、このアルゴリズムが普及し遺伝子検査の精度が高まることが期待されます。

 

二つ目: 個別化医療に置ける深層学習を利用したアルゴリズム

www.fronteo-healthcare.com

こちらの会社の「がん個別化医療AIシステム」と言うのは、正直内容がわからないので、何とも言えません。ただ学術的な世界で、包括的な意味での「がん」に対して個別化したアプローチを取って成功している例は未だに知りません。よくある研究の類としては、「あるがんの遺伝子変異に対して、ある抗がん剤はこれぐらい効果があった」と言うような研究です。

 おそらくここでFRONTEOが言いたいことは、IBMのWatsonと同じく論文検索でしょう。ある患者のがんにおける遺伝子変異を検索クエリーにし、その遺伝子変異特有の治療法を研究している論文を検索することです。これはある意味個別化ですが、個別化のレベルが非常に低い。より医療に踏み込むとすると、「この患者の遺伝子変異、肝臓腎臓の薬の代謝量、がんの大きさ」全てを包括して、「この患者に適切な抗がん剤の組み合わせ、種類、投与方法」と言うのがわかれば、個別化医療でしょう。しかしFRONTEOがやっていることは論文検索だけのように思います。これを人工知能と呼ぶか?これをAIと考えるか? それはまた別の議論ですが、何でもわかるAIというのは存在しないことに留意しましょう。

 

 個別化医療と言うのは、患者の身体的、精神的、社会的背景を踏まえて適切な治療を施すことです。しかしそのような複合的な問題は、今の人工知能では絶対に最適化できません。データもありませんし、精神的なもの、社会的なものは数値化が難しいでしょう。しかし進んでいる研究分野はもちろんあります。一つ深層学習を利用した例をご紹介しましょう。(#人工知能とは、このように個別化医療に使われます。その正体は様々で、今回は因果推論という分野のモデルがAI、人工知能と呼ばれるわけです。)

 

U. Shalit, F. Johansson, D. Sontag. Estimating Individual Treatment Effect: Generalization Bounds and Algorithms. arXiv:1606.03976 Preprint, 2016 

 

こちらにスライドもあります。

いわゆる「反事実推定」と言われる分野です。例えば糖尿病に対して、2種類の薬A, Bがあります。今患者に対してAを使った場合、血糖値は10下がりました。しかしBを使っていたら、どうなっていただろう。と言うような問題設定です。

このような問題設定はCausal Inferenceと調べると関連論文が出てきますが、深層学習が研究される、だいぶ前から研究されました。特に有名なのがPropensity Scoreというものですが、医学研究にのみ有名な研究な気がします。このような考え方は、機械学習を専門にやってきた人だと、あまり馴染みがないかもしれません。下記のような素晴らしいまとめをご参考いただければなと思います。

統計学における因果推論(ルービンの因果モデル) – 医療政策学×医療経済学

 

さて本題の論文ですが、要は治療薬Aを受けた群とBを受けた群の特徴をうまくマッチさせましょうということです。論文紹介は骨が折れますので、またの機会に紹介させてください。

 

 

 

 

 

 

 

 

 

 

NIPS2016の医療ワークショップのまとめ

こんにちわ。先週行われたNIPS2016の医療ワークショップについて書きます。

(初学者の方は機械学習=人工知能とざっくり思ってもらっても大丈夫です。

ただ一つ強調したいのは、人工知能は何でもできるわけではありません。むしろ何もできません。

現在の人工知能は電卓のようなものです。決められたことしかできません。ガンを治すこともできなければ、病気になることは絶対に防げません。

人工知能ができるのは、例えば糖尿病に5年後なる確率をだいたい予測できるなどですが、毎日お酒を飲んで大量に印象句をしている人が糖尿病になりそうなのは、計算しなくても僕らは直感でわかります。2016年現在、医療における人工知能とはその程度でしかありません。笑)

 

そもそも機械学習の国際会議で応用系のワークショップが盛んなのは素晴らしいことですね。常に応用を考えなければ意味がないと、NIPSにいる基礎系の研究者は誰しもが思っています。それゆえに、2012年ICMLでは、機械学習の研究者に対して物を申す論文が大きく注目されたわけです。下記ブログは素晴らしく整理されております。

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶

 

さてさっそく本題に入りたいと思います。

まず最も大事なことは、「完成された研究を発表し合う」というより、「発展途上の研究を一緒に現場に応用するには」という点がテーマです。だからワークショップに出す論文も「1論文あたりページ数は上限が5枚」と定まっており、その代わり、可能な限り幅広いテーマを皆んなで議論するというイメージです。

 

まず採択された論文テーマが50以上ありますが、そのうち23本は「何かを予測する」論文です。非常に驚きです。何を予測してるか簡単にあげますと、
(詳しくはこちらを見てください)

とあります。ここで一本一本、論文を読んでいくと、入力データは画像か、カルテの自然言語か、血液データか。更には時系列データか。予想する出力値は生存期間か、発症したかどうかか。などあります。

 

#「予測」=人工知能と思われるかもしれませんが、統計と機械学習の違いは何か?と疑問に思ったあなたへ、簡単に説明します。

統計学はデータを「説明」することにより重きを置く

機械学習はデータから「予測」することにより重きを置く

 

おそらく多くの方が「医療と人工知能」「医療と機械学習」でイメージするのは、何かを予測する上のような研究だと思います。これらの研究はこのワークショップ以外にも大量に行われております。疾患の予測というのは、医療が専門ではない方にとってもわかりやすい。故に大量に研究がされている。試しに「deep learning OCT prediction」とでも調べると一瞬で論文が出てきます。https://arxiv.org/pdf/1612.04891.pdf

 

しかし、予測するだけでは無意味です。医療従事者は、「どのステージの患者で、感度と得意度がどれぐらいなのか。予測に使った検査値は、どのステージで取られたものか」など非常に重要な点が残ります。なので、「ただ予測しました」というのは何も語ってないのに等しい訳です。私が人工知能ブームで恐れているのは、そのような点です。

 

さて前回も述べましたが、医療データの特徴は、

  • 「肺がん」という一つの病気をとっても、病気の進行の多様性は数多い
  • 医師が記録をしたい、測定したいと思わない限り、結果が残らないので、欠損値が多い
  • 人体とは生まれてから死ぬまでなのだが、ある病気が発症する4,5年前からしか最大でもデータが取れない(50歳で肺がんが発症しても40歳の時のデータは測定されてない)
  • 患者が来たい時に来るので不定期な時系列データになる
  • ラベルが付いてないデータが当たり前かつ、ラベルがついていても、病院ごとで違うことが多いし、信頼はできない (つまり、他院で肺がんと診断されるかもしれないが、他の病院では肺炎と診断されるかもしれない)

 

「じゃあ50本中、疾患の予測以外の論文25本は何をしているの?」というと、医療データの特徴をうまく処理できるようなアルゴリズムの開発。その他には、

  • 乳がんを意味がある形でサブ - クラスタリングする*4
  • アキレス腱断裂におけるリハビリテーションでは、患者の幾つものデータが欠損している。どのようにデータを補完し最適なリハビリを提供するか *5
  •  アメリカの医療コードを正準相関分析をして意味のある特徴量を見つけ出し、大腸憩室炎の発症を予測する *6

 

疾患対象は多岐に渡ります。というよりも、「手頃なデータがあるからやってみよう」という雰囲気を何年間か見ていますが感じます。すべての医療データに対して、予測かデータ補完かサブクラスタリングができるわけです。つまりデータがあれば論文の書き用はあるという印象を受けます。

 

他にも「ある部分を予測して切り出してくる」という論文もあります。今回ですと、CTで肝臓とリンパ節の部分を切り出してくるアルゴリズムの開発などがありました。

その他画像では、「様々な部位のX線画像を学習する。そして手のX線画像は、どの辺りの特徴で手と認識されるか」というようなわかりにくい問題設定の研究 *7もありました。この手の研究は、「X線画像を見て医師は肺がんを診断しているが、同じように深層学習も肺がんを診断するとき、人間と違う特徴量をつかってるかどうか知りたい」というような時に有用ではありますが、有用になった例の研究は私の知る限り知りません。

今年は画像系の研究がworkshopで少なかったように感じます。

 

 

今回はそのうち一つについて僕が好きだった論文を紹介します。これは「データがあるからやった」というよりも医療を最適化するうえで、現場のデータをどうすればよいかという問題を解こうとしています。

[1611.07663] Learning Cost-Effective and Interpretable Regimes for Treatment Recommendation

 

問題設定

医師は日々決断をせまられる。薬の投与量の変更や使用している薬の中止など。彼らはその決断を、目の前の患者を見ながらサジ加減調節することが多い。大量にデータがあるのにも関わらずそのようなことを行ってしまう。このように医師が行動をとってしまう理由は3つある。まず同じ患者はこの世にいないので、結局目の前の患者の情報が第一であるから。次にインターネットで情報を集めるのが面倒。さらに治療方針を再度変えるとお金がかかる。

 

これに対して現在の医療では、手作業による治療ガイドラインアルゴリズムが偉い方々の学会から毎年改定されて公開されている。これは作成コストが高すぎるのではないか。彼らが行った研究では、簡単に言えば「目の前の患者に最適化された選択肢を提示し、そのコストも計算し医師に見せる」ことを機械学習でやろう。というものです。

 

手法とデータセット

Figure 1を見てもらいたいのですが、このような画面を出力したいわけです。そのために彼らはルールの最適化を行います。あるルールの集合をレジメと呼び(呼吸機能が悪くなったら、酸素を入れるというのがルールのひとつの例です)、このレジメがコストが一番かからず患者の病気が一番早く良くなれば、一番良いレジメということです。それをマルコフ過程 + 木構造に乗せて最適化していきます。(有名なAlphaGoと同じ仕組みです)

データセットは、彼らは喘息の患者を対象に行いました。入力データは、年齢、性別、身長体重、呼吸機能などです。介入は2種類で速攻型吸引薬、コントロールのための薬物です。出力は、どの程度の期間発作が治まっていたか。というものです。これらの中から「最もコストが掛からず、発作が治まってる期間が長いレジュメ」というのを推定します。

 

結果

彼らのフレームワークで研究したレジュメは、人間の考えたものより良い治療ができるという結果が出ました。治療にかかったコストもわずかながら彼らのフレームワークの方が優れていました。

 

私が思うこと

米国ならではの研究で素晴らしいと思います。日本は、国民全員保険に入っているので、医療費のコストなどを一般市民が認識する機会がありません。しかし米国ではそれが普通です。このように医療費の最適化を真剣に考えている点は素晴らしいと思いました。人工知能で病気を診断する以外にも、医療に人工知能が役立つアプローチは無限にあると思います。

 

 

 

 

 

Who we are

こんにちわ。このブログを作成するにあたり、間違った情報を伝えない、誇張したことを書かないなど人間として当たり前のことをしっかりやっていきたいとおもいます。

 

www.yomiuri.co.jp

 

 

DeNAこちらの事件が発端で、私はこの記事を書こうと思いました。

「医療と人工知能」というだけで多くの企業が「儲かる」という理由で投資をしビジネスを始めています。しかし果たして患者さんを救うことにつながっているのでしょうか。DeNAだけを責めるわけではありません。ただ僕らがやりたいことは、このような事件が二度と起きないように努めることです。そのために「人工知能とは結局医療とって何か」というのを紹介していきます。

  

医療と人工知能の熱の上がり方は激しく、どの企業や研究者も熱心に取り組もうと頑張っています。しかし残念ながら、一部では利益のためだけに公明正大に嘘をついたり、誇張した表現で活動をしていることがあります。それらは必ず患者さんに悪い結果をもたらします。

僕らはそのようなことは容認できません。そのため患者さんが、正しい情報を手に入れるお手伝いをこのブログで行いたいです。また研究者の皆様も、僕らがまとめた情報で、皆様の力に少しでも慣れたらなと思います。 

 

ご意見、ご連絡がありましたら、こちらまでお願いします。

keiohigh2nd[~at~]gmail.com

[at]を@に変更してください

 

 

 

 

 

医療と機械学習の研究について ~ 人工知能で病気は診断できるか

ブログの目的

こんにちわ。医学を勉強しているものです。今回は新しくブログを作成しました。その発端となったのは、悲しくもDeNAWELQの一件です。根拠が不明な記事、そもそも間違った情報が満載な記事をインターネット上に公開するのは、更なる不幸を呼びます。このブログでは、根拠を正確に示し間違いのない情報を公開していきたいと思います。

 

いま最も医療で騒がれているの一つのテーマは、医療と人工知能です。多くの記事が人工知能で医療が良くなることを述べ、多くの会社が人工知能を使って医療を良くしようとしています。更に、国も現在、人工知能を使った診療や介護に報酬をつけることを考えています*1 しかし結局「何ができるのか」というのが、一般の方にはわかりにくいと思います。おそらく「医師と同じように、人工知能が患者さんの病気を診断をできる」というのが最初に来るイメージだと思います。また他にも「患者それぞれにあった治療法を提案する人工知能」というのが、実際にニュースにもなったWatsonの例です*2このように話を聞くと、がんを患ったことがある患者、現在患っている患者は「人工知能によりガンが治るようになった」のかと期待を持ちます。期待自体は悪いことではありませんが、このように「人工知能によりがんが治るにようになった」という間違った情報が伝播していってしまう可能性があります。他にも「医師国家試験に合格しそうな人工知能がいるなら、医者なんていらないじゃないか」と、こちらのようなニュースを見て思う方は多いのではないでしょうか*3

 

そのような間違いを防ぐために、このブログでは人工知能と医療をテーマに、それらの基礎的な研究を根拠を基にして紹介していきます。DeNAの件を考えますと、多くの企業が利益のために「人工知能なら治らなかった病気が治る」という言っているような行き過ぎた熱を感じます。そうでなくても、「医療と最先端の機械学習で社会を良くする」等を宣言している会社が幾つもありますが、結局何をやってるのか不明であります。私が避けたいのは「結局、機械学習で医療は変えられないじゃん」みたいな熱が冷めることです。そうならないためにも、「具体的にどんな研究をしていて、どのように医療現場を変えられるのか」を正しく細かに発信する必要があります。

 

まず今回最初のブログでは、最先端の医学と機械学習の研究について、どこで情報を得ることができるかを紹介します。その上で、Xは私の知る限り、知らない。と述べますが、「私の知る限り」とは下記の国際学会や国際雑誌を論拠にしてます。(なのであまり自分の意見を述べるというよりは、事実を平坦に包み隠さず紹介していきたい次第です)

 

人工知能は病気の診断を行うことは可能か?

 

最初にこの話題を一般の方のために説明します。結論から言えば、画像から疾患の一部の特徴を診断することは既に可能です。例えば乳がんの悪性度を病理画像から診断するというのは、医師と同じような精度を持って診断が可能です*4。一方で、医療は「あなた乳がんです」という場所から始まりません。まず乳がんとは、患者が乳房に違和感を持ったり、健康診断で触診、視診、患者さんの家族歴等により疑われたりすることが、がんの発見につながります。今の人工知能が行なっているのは、医療の診断における特殊な部分を行なっているだけです。

 

GoogleのDeepmindが眼底画像から眼疾患を機械学習で診断するニュースは新しいです*5 。13日には論文が出ましたね。*6病理画像の乳がんの悪性度判定も機械学習で行われております*7 これらの眼底画像、乳がんの病理画像以外にも、多くの医療画像が深層学習で診断をされており、ニュースになっていないだけです。例えば「気になる病気 image CNN Deeplearning」と調べれば殆ど出てくるのではないかと思います。これらは画像だけから診断するということです。

 

しかし実際の医療現場では、画像からのみ疾患を推定することは少ない。画像だけではなく、患者の家族歴、血液データ、更に遺伝子データも診断のために使う時代であります。そのような試みをしている論文もありますが、データの種類が増えるたびに、論文は少なくなります。それはデータが集まりにくいという単純な理由です*8。当院でも、医療画像、血液データ、患者カルテというのは別々のデータベースに入っており、そう簡単に一括にデータを収集できない状況です。

 

GoogleのDeepmindも医療に力を入れていることを宣言しており、眼底画像以外にも放射線治療のプランニングに機械学習を利用した研究をしています*9放射線治療とは、がんに対して適切な量と場所で放射線を当てるという治療ですが、これは自分も実際に臨床実習で設計したことがありますが、機械学習を利用すると良いと思う分野です。

 

このように機械学習を利用した方が良い分野というのは、入力と出力が綺麗に見えているものです。病理の画像を入れてがんのグレードが出る。がんのCT画像を入れて適切な放射線量が出る。なので、もし機械学習で医療を良くしていくときは、上記のようなアプローチの方が導入されやすいと思います。逆に言えば「がんの個別治療の最適化」というのは、難しいタスクです。入力に、患者の情報、がんの遺伝子データなど複数のタイプのデータを入れるとすると、出力は適切な量とタイプの抗がん剤です。。最適化するために多くの学習データが必要ですが、日本のカルテシステムだとデータが集まるのはここ2、3年では難しいこともあります。また一つの病院のデータだけで、モデルが作れるかというと、そういうわけでもありません。病院ごとにがんの治療方針は違うこともあり、一つの病院で最適化してしますと、施設バイアスが出ることもあります。

 

また少し話題になった「医師国家試験を合格できる人工知能」ということですが、記事でモデルまで非常に詳細に説明されています。こちらの先生の発表も生で拝聴させて頂きました。非常に堅実に医師と協力してモデルを作っている研究です。しかしこれは、記事でも著者が言ってるように、医師が診断を下すのとはまた別の違うアプローチで正解にたどり着いています。例えば「熱が出た、昨日は熱が少し下がって、今日はまた熱が出た」という文章を読んで、こちらのモデルでは単語の出現頻度のみしか扱っていません。しかし本来であれば、熱が下がったり上がったりしているという非常に重要な症状です。このように患者の症状の特徴を違った特徴に変えても60%以上の問題が解けるモデルができるというのはある意味驚愕です。しかしこれは実際の医療では使えないということを肝に命じてください。国家試験の文章問題に出てくる単語頻度のみを扱っているわけですから。

医療と機械学習では、研究面ではどういうアプローチが取られていることが多いか

そもそも機械学習とは予測をすることですので、疾患の予測の一言に尽きます。しかし「がんか、イボか」というレベルの予測ではなく、「この薬は、この患者に効くのか」という予測*10 や「糖尿病の中で、何種類のサブタイプがあり、その分類に従うと、どのように予後が変わるか」という研究*11 もあります。細かな具体例は次回の記事に回すとしまして、ここで申し上げたいのは、「ただ病気かそうでないかを予測する」だけではないです。ある種、医療の知識が必要なのはその点なのかもしれません。またICU(救急治療室)などの現場で例えば敗血症を予測をするモデルなどは研究が盛んです。その一つの理由は、ICUでは定点観測できる時系列データが豊富だからだと考えます。それ以外にも機械学習というよりかは因子分析*12 や欠損値を上手く処理するモデルの考案 *13などがあります。

 

また医療と生物学は切って離すことができません。すなわち生物学と機械学習も非常に熱心に研究されている分野であります。昨今、PFNがバイオマーカーの探索などで新事業を立ち上げました*14。生物学でも機械学習、深層学習のアプローチが有効な例は無限にあることは皆様もイメージつきやすいと思います。しかし「具体的に何をやってるのか」と言われると、「予測精度が上がった」ということしかメディアには取り上げられません。僕が先月読んで非常に感銘を覚えた論文がBengioチームから出ました。Diet Networks: Thin Parameters for Fat Genomic *15というものです。こちらは、生物学独特のデータ環境について深層学習で解決をしています。簡単に言えば、パラメーターの数に対してサンプル数が圧倒的に生物学では少なく、意味不明な余剰なパラメーターを深層学習を使って減らしていくことで、モデルをコンパクトにし、パラメーター>> サンプル数のケースでも上手に予測しようとした論文です。

機械学習の国際学会に付随するWorkshop

こちらの学会で垣間見ることができる研究というのは、「機械学習の研究者が医療データを使って何ができるか」という物が多いです。

 

医療データは、他のデータと顕著に違うところが多いです。例えばラベルのないデータが多いこと、患者が来院するタイミングは気まぐれであり、決まった時間に観測できないデータであること、全ての患者が全て同じような検査を受けていないので虫食いのようなデータが多いこと。これらのような特徴は医療に限りませんが、医療データでは必ず見られる特徴と言ってよいでしょう。

 

NIPS 2016 Workshop on Machine Learning for Health

こちらは現在まさに開催中というナウなワークショップですね。非常に投稿数も多く更に言えば採択数も多いWorkshopです。もちろん最低限の査読項目はあります。新規性があることはもちろん、機械学習の論文として客観的に精度の評価がなされていること、間違った手法を使ってないこと、実際の医療現場で役に立つことなどです。私の論文もReviewをされた時に、上記の点を指摘されました。採択された論文の中で優れたものはSpotlightトークとして特別に発表することができます。

 

ちなみにNIPSの本会議でも医療情報を使ったものが少ないですが稀にあります。

 

RETAIN: Interpretable Predictive Model in Healthcare using Reverse Time Attention Mechanism  

こちらの論文は深層学習に高次元データを入れて出力が低次元の場合、どの次元のデータがどれほど予測の精度と関係するか、一見すると分かりにくいという問題を解決しようとする問題です。医療において、「何が患者の予後を改善、悪化させたか」というのは興味の対象であり、予測だけすれば良いという分野ではありません。

 

今年のICMLという会議でも何件か医療データ関連の論文がありました。

Learning Representations for Counterfactual Inference. 33rd International Conference on Machine Learning (ICML), June 2016

こちらは、統計学的因果推論の中でも、反事実推定というものを行なっています。医療において非常に重要で、「この患者にはAの薬を投与したけど、実際Bの薬を投与してたら、患者の血圧はどう変わってたんだろう」というのに利用されます。もともと統計学でRubinなどがプロペンシティスコアなどで研究していた分野ですが、サンプルの群の間で特徴量を整えるならば、機械学習も非常に有用だということが最近見いだされました。

 

今年のKDDの論文でもこちらなどが医療と関連がありました。

Text Mining in Clinical Domain: Dealing with Noise.

 

もちろん、NIPS, ICML, KDDだから「凄い素晴らしい論文」というわけではないとみなさんも、私も考えていますが、上記のような機械学習のレベルの高い学会でも、医療関連の論文が本会議で採択される時代なのだと私は喜んでおります。

sites.google.com

 

昨年行われたworkshopに私もポスター発表に参加しました。2013年から毎年Helthcare Workshopは開催されてるようですが、Websiteを見つけることができませんでした。

 

KMD - KDD 2015 - Medical Mining Tutorial

その他にもKDDでは、Workshop形式ではなく、Tutorialという形で医療データの解析が開催されました。とこのように毎年何かの形で機械学習の国際会議で並列に開催されているwokrshopがありますので、みなさんも見てみてください。

 

BigCHat: KDD 2014 Workshop on Connected Health at Big Data Era

DMH Workshop at KDD 2013

ACM SIGKDD Workshop on Health Informatics (HI-KDD 2012) - August 12, 2012  

Call for Papers - Role of Machine Learning in Transforming Healthcare

 

MUCMD - Machine Learning in Health Care

こちらは昨年度から始まった学会です。機械学習と医療をテーマに一つ学会を作ろうとのこと。実際に行くことはできなかったので、雰囲気がありませんが、来年度もあるようなので、興味がある方は投稿してみはいかがでしょうか。

 

注目すべき研究者

医療と機械学習で優れた論文を大量に描いている研究者を紹介します。ぜひ定期的にチェックしてください。まず MIT David Sontag Team 。そのほかには、Sun Lab  といろいろあります。

 

 

医療と機械学習を研究したいがデータがない!

そんな方には、Public Databaseをご紹介します。MIMIC と呼ばれるMITが管理している医療データベースがあり、そちらはオンラインで講習などを受けると使えるようになります。SQLを叩いてデータが帰ってきますので、そちらをダウンロードして解析する形です。私自身、こちらでデータを借りて論文を昨年度は書きました。

 

またその他にも、DrivenData , Kaggleなどが、たまに医療系のデータで大会を開くこともありますが、こちらは研究というより精度を競う感じですよね。

 

終わりに

最後の方は若干力尽きてしまいましたが、定期的にこのように皆様と「医療と機械学習」について議論を交わしたり情報をシェアできたら嬉しいなと思います。何卒よろしくお願いします。

弊社AUGRIMではこの論文の他にも、機械学習を用いて医療に関する様々な研究を行っております。共同研究や製品開発のご依頼などは随時承っておりますので、お気軽にご連絡ください。