AUGRIM

AUGRIM~医療と機械学習を正しく伝える

2017年の前半~機械学習(人工知能)と医療の論文を読み~医療はAIでどう変わるか?

今回のテーマは、

「ただ医療データを機械学習で予測するだけで意味はあるか?」

「モデルができた場合、どうすれば病院に届けることができるか?」

答えからいえば

「医師と同じ能力で予測だけでは意味はない。医師の業務を軽減するような予測をする必要がある」ということです。ソフトに画像読み込ませて「がんです」と出るだけでは業務に使えません。「ソフトに画像を読み込ませれば、カルテに医師が書いてる細かな情報と同じことが記載される」など業務の一環をサポートできるように補足できることが大事です。それが今回紹介するGoogle論文*1 です。

 

次に「モデルは大事だが、複雑なモデルよりもわかりやすいモデルが医療では大事。結局人間が判断するケースが多い、その場合、「なぜこのモデルが悪性度4と判断したか」というのが人間にわかることが大事です。」

 

早速本題に入ります。

2017年に入り、Googleを筆頭に、「機械学習で医療データを予測しよう」という論文がニュースで割と有名になりました。*2

money.cnn.com

こちらの成果をざっくり言えば、

「がんの悪性度を判断する病理検査がある。病理医は毎回患者さんの病理画像を見てから悪性度を判定しデータにまとめるという作業をしているが、これを病理医より正確に早くできるようになった」

ということです。ただ「この画像はがん」と予想するだけの論文ではなく、「どの部分が悪性度の高いがんで、それは全体のスライドのX%を占めている」ということまで教えてくれるので、現実問題に沿った非常に重要な問題です。個人的には、現場の医療問題として画像データのサイズが大きすぎる。この現場の問題も彼らは言及しています。

 

その他にも今年はこんなのがありました。

www.inverse.com

上記のように敗血症を事前に予測するというテーマもニュースになりました。この記事では、Q&A方式で研究者が答えているのが面白いです。AIが判断することで医師の責任はどう問われるか、電子カルテのデータ構造やデータのあり方をどう変えれば良いか。など世界共通の悩みに「いまだ答えが出てない」ということを教えてくれています。

 

www.standard.co.uk

こちらはGoogle DeepMindが絡んでいるようです。急性腎不全になる前に患者の血液データからそれを予測したということです。「正直、このような研究は以前からあります。」とか関係なく、救われた家族の話が掲載されていて心が和みます。

ちなみにテーマとしては、私が2015年NIPS Clinical Health workshop*3で論文化しDeepMindからStudent Awardをもらった研究内容に近く肝硬変患者の腎障害予測でした。

 

www.wired.co.uk

医療画像の予測研究は数多くあります。深層学習が現れる前からあります。特に皮膚科や乳がんのレントゲン写真、胸部レントゲン写真、あとは眼底画像。これらは多いです。なぜかというと、健康診断などで取られる機会が多く、医師の見落としが起きやすいからです。

 

 さてまず最初に2017年の研究を紹介した理由としては、「研究自体は以前から多くあった。別に新しい手法ができて2017年じゃなきゃこの研究はできなかった、ということでは全くない」ということを強調したいです。

つまりこのように記事になったりWebで有名になるのは、人工知能に対する過度な期待な表れなわけです。しかし過度な期待には常に期待はずれがつきものです。例えば上で紹介した4つの研究のうち、一つの研究が5個の病院に実際に設置されるのはいつ頃になるでしょうか。

恐らく長い時間がかかるでしょう。それは下記のような理由です。

  • ラボデータをどうやってモデルに入れれば良いのか?
  • モデルは他の病院で有名で精度が高いわけで、我々の病院に当てはまる保証はあるのか?
  • 医師でも直感でわかっていることしか、機械学習は予測していない

一言でまとめるとすればモデルの解釈が全くできていない点と、病院に保存されている医療データの所在と管理方法が古すぎるのが問題です。

機械学習というのは「次に来るデータに対しうまく予測できれば良い」というスタンスを取っており、モデルがいくら複雑になろうと、解釈性が低くても良いとなってる。

(ここでいう解釈性とは、「なぜこのモデルは画像 Xを犬と判定したか」をということです。)これは医療では逆。なんでそう思ったか、というのは知りたい。なぜなら人工知能だけで患者ががんと診断されるのはやはり怖いです。

 

TensorflowやChainerで簡単に実装ができる中で、がんを診断する論文なんて、「簡単に書けるだろう」思われるかもしれない。しかし論文を書くだけなら簡単かもしれないが、実際に機械学習を真面目に勉強し実際の現場に送り込もうとすると「簡単」とは言えない。

なぜなら実装して「ああ、予測精度8割ね」とは終わらず、このモデルの評価をしなければならない。どれくらい汎化性があるか、どのような画像が苦手で間違えたか、特定の画像に病気とは関係いないスケールやノイズが入っていないか。さらにこのモデルを病院内で使ってもらうためには、現状の病院システムのどこに組み込めば良いのか。それは安全なのか。考えることは山ほどあります。

これらをしっかり判断したい。ニュース記事では、予測ができた、予測ができたと騒ぐ。一回落ち着いて欲しい。

 

また今回病気の予測を何からするかというのが今後大事だと思います。

機械学習のモデルにとって画像か数値というのはあまり変わらないかもしれませんが、医師(というか人間)にとっては大きく違います。数値10個を見て判断するのか、画像1枚の行列1つをみて判断するのかでは、やはり後者の方が人間の直感は働く気がします。

すなわち複数の数値データから病気になる確率を予測したりする能力は圧倒的に機械学習(AI)の方が優れている。
それが如実に表れているのは、我々医療従事者は、現場ですぐ計算できるように物凄く近似された予測方程式を使う。ペインの式、eGFR式*4などだ。逆にいえば、そこで先ほどの急性腎不全の予測を数値で行うのは人間には無理です。入力するデータの数が10個以上の場合、僕らはいちいち計算していらられない。じゃあその数値データをどうやってモデルに入れるのか。上述したモデル問題が姿を表す。モデルの解釈と場所が問題になるのだ。


一方で二つ目の問題として、病院内の医療データだ。現在多くの病院は、医療データが存在するサーバーをオフラインにすることでイントラネット内で全てを完結させている。それはそれで一つの手段だが、イントラネット内でも病院の情報は引き出すのが難しいし、不正に引き出すことも沢山できる。それらを安全に簡易に行おうと考えている企業がある。予想通りDeepMindだ。彼らのブロックチェーンに類似する医療データの管理方法の研究がメディアにも反響を呼びました。(この時点で、なんの研究家かはあまり言及していません。ブロックチェーンとだけ言っています)

deepmind.com


今後、医療には莫大なデータの統合が必要です。それは医療データは施設バイアスが激しいからです。例えば車の画像は、だいたい日本の国内なら同じです。しかし血糖値というデータ一つ取っても、地域ごとに測定する頻度や糖尿病に対する患者の意識の差などあり、グローバルに役に立つモデルというのは非常に難しい気もします。だからモデルを個別化させるか、データを統合的に集めるかしか手段がないです。
そこで安全にデータを集約するという意味で、ブロックチェーンのような構造を取るのは非常に良いアイデアですが、計算コストや維持費などが高すぎる。Google DeepMindはきっと年末にはこの点を改善したデータ管理方法を開発するでしょう。

 

我々もデータ管理システムを作っています。(後日記載)

日本が医療と機械学習で進みが遅いのは、圧倒的に「医療と機械学習で技術を持った会社」が少ないからです。そのように技術に飛び抜けた会社が業界をリードすべきです。Google DeepMindのような海外に頼ってしまいたいですが、しかし医療は世界共通ではありません。米国と日本では殆どの疾患で治療法が異なります。米国は米国人の遺伝子と生活にあった治療が存在し、日本には日本のものが存在します。よって日本は日本の医療をリードする日本の技術で飛び抜けた会社が必要です。そういう会社を僕らは目指しています。(   )