株式会社 NAM

NAM~医療と機械学習を正しく伝える

チャットボット型問診AI: ドクターQについて

株式会社NAMの中野哲平です。

 

弊社が現在公開しているベータ版の問診ボット: ドクターQについて、下記のページで説明させて頂いているので、ぜひお使いください。

http://nam-inc.jp/doctorq.html

 

こちらの問診ボットAIが他社様と大きく違う点は2点あります。

まず1点。他社様の問診ボットは、患者様の症状から考えうる病気を推測することを1番の目標にしています。しかし我々の問診ボットは、病気を当てることより、「今すぐ病院に行くべきか」「薬を飲んで寝れば治るか」などの緊急性を推測することを一番に重きを置いております。

 

2点目についてです。

この問診ボットであるドクターQは、病院と連携することができます。提携している病院がある場合、ドクターQを使うと、提携先の病院のカルテを閲覧することができます。

 

ぜひ下記をクリックして、ドクターQを使ってみください。LINE登録で使えます。

LINE Add Friend

心電図から不整脈を検知する

株式会社NAMの中野哲平です。

心電図から不整脈を検知するPhysionetというデータ解析の大会がありました

その中で1番精度が良かった手法の報告論文です

 

よく現場ではあるのですが,すべてのデータをAIやモデルに投げるだけでは上手くいきません。

この論文の手法も心電図から特徴量を取る部分は、かなり医学の知識を用いて特徴量を作っています。

https://arxiv.org/abs/1711.03892

ICML2017特集 part2

こんにちわ、株式会社NAMの中野哲平です。

 

前回に続き、今回もICMLで発表された論文をレビューします。

 

実際に、機械学習(or深層学習)と医療に関する発表は多数あり、その中で筆者が直接聞いて特に面白かったと思うものをご紹介します。

 

ICMLでは、論文が分野ごとに分けて発表されます。Health Careのセクションでは次の5本が発表されました。

 

1. H. Zhou 他, When can Multi-Site Datasets be Pooled for Regression? Hypothesis Tests, $\ell_2$-consistency and Neuroscience Applications

2. A. Alaa 他, Learning from Clinical Judgments: Semi-Markov-Modulated Marked Hawkes Processes for Risk Prognosis

3. J. Futoma 他, Learning to Detect Sepsis with a Multitask Gaussian Process RNN Classifier

4. W. Dempsey 他, iSurvive: An Interpretable, Event-time Prediction Model for mHealth

5. M. Zhao 他,  Learning Sleep Stages from Radio Signals: A Conditional Adversarial Architecture

 

個人的に新鮮に感じた発表は5番目の論文で、機械学習を使って睡眠のステージを予測する研究成果が報告されました。今回はこの論文で述べられていることをまとめてみます。以下の図はプレゼン資料や原論文に用いられていたものを使用しています。

Learning Sleep Stages from Radio Signals: A Conditional Adversarial Architecture - YouTube

 

よく知られているように、睡眠には幾つかの段階があります。

1. 起きている状態

2. 浅い眠り

3. 深い眠り

4. レム睡眠(急速眼球運動を伴う睡眠) 

そして、睡眠状態と脳の活動には密接な関係があるため、睡眠状態を知ることには意味があると考えられます。たとえば、深い眠りの状態は細胞の成長や筋肉の修正、記憶の定着などに本質的な役割を果たしています。

 

睡眠と脳の活動に関する研究は数多くありますが、この研究の新しさは脳の活動を直接調べるのではなく、被験者が眠っている見た目の様子そのものから、被験者がどの睡眠状態にいるかを予測しようとしています。

f:id:Longman:20170816215657p:plain

 

 

従来の睡眠に関する研究では脳波を測定する機械を被験者の脳につけたり、被験者がMRIに入ったりして実験を行っていましたが、本研究では被験者は自然な状態でベッドに入ったままで、外部のWi-Fiのシグナルのみから睡眠状態を予測するモデルが作られました。

 

モデル

f:id:Longman:20170816214320p:plain

この研究の優位性は、被験者が普段生活している家にあるベッドで実験が行えることでした。したがって、睡眠とは関係ない部屋の独自の特徴などのバックグラウンドに由来するノイズなどを取り除く必要があるため、Dという関数が用いられています。ここでxは被験者から得られたWi-Fiシグナルをインプットです。

 

データセット

25の異なるベッドルームにおいて、それぞれ100日間の睡眠データが使われました。

 

結果

脳波を直接観測することなく、Wi-Fiシグナルのみから睡眠状態が判別できるだろうかと疑問に感じるわけですが、実際にかなり高い精度が得られることがわかりました。

 

f:id:Longman:20170816220808p:plain

上の図は同一人物の同時刻での睡眠状態を表したデータです。図の上段は測定器を着けた状態での測定結果、下段は論文で提示されたモデルによる予測結果を表しています。91.2%も整合することがわかりました。また、予測結果が最も悪い場合でも、71.2%の整合性が得られたと報告されています。平均は80.4%だそうです。

 

結論

睡眠状態をモニタリングする際に、従来まで行われてきたような測定器を体に取り付ける方法以外に、単に被験者の体から跳ね返ってくるWi-Fiシグナルを観測するだけで、睡眠状態が高い精度で予測可能であることが示されました。

 

このような、直接脳波を観測することなく、脳の状態を予測する研究は今後ますます重要性が高まってくることが期待されます。特に、脳科学人工知能という学術的観点からも非常に興味深いです。

 

弊社ではこのような観点に基づいても研究を行っています。興味を持たれた方はご連絡ください。

 

 

 

 

 

 

ICML2017特集 part1

こんにちわ、株式会社NAMの中野哲平です。

 

世界最大の機械学習の国際会議の1つ、ICML (International Conference for Machne Learning) が約2週間後にシドニーで開かれます。自社の社員1名が研究発表をして来ます。

2017.icml.cc

今回から数回にわたり、ICMLで発表される論文の中から幾つかを厳選してレビューを行うことにします。

 

第1弾では、生命・医療系の論文に注目します。本会議と併設されて行われるワークショップ、WCB (Workshop on Computational Biology)はがん研究の屈指の研究所であるMSKCC (Momorial Sloan Kettering Cancer Center) のメンバーらによってオーガナイズされ、がん研究のスペシャリストが集う場として必ず毎年開かれています。論文の一覧は以下のURLからご確認いただけます。WCB @ ICML 2017 - Accepted Abstracts

 

今回はこのワークショップで発表される次の論文に焦点を当ててみます。

Hatice U. Osmanbeyoglu, Christina S. Leslie

Modeling the impact of somatic alterations in ubiquitin pathway genes across human cancers WCB_2017_paper_8.pdf - Google ドライブ

 

研究の目的

私達の体内には、ユビキチンという数多くの生命現象に重大な影響を与えるタンパク質があり、細胞内の他のタンパク質と結合する(ユビキチン化)ことにより、細胞内で不要になったタンパク質を除去する働きを有しています。仮に、タンパク質のユビキチン化に異常があると発がんリスクが高まることが知られています。このユビキチン化にはおよそ600種類あるユビキチンリガーゼと呼ばれる酵素がタンパク質に作用が影響しています。また、タンパク質のどの塩基にこれらのどのユビキチンリガーゼが作用するかは不明で、がんに対しての直接的な理解は得られていません。この問題に計算生物学的に取り組むのが本研究の目的です。

 

方法

本論文では、ガンの遺伝子発現を予測するために、DNAの転写因子の活動に注目しています。以前の記事がん治療・研究に対する計算生物学的アプローチ - AUGRIMでも述べましたが、がんは遺伝子に異常があるため、細胞の増殖するスピードが異常に早くなる病です。転写因子(Transcription Factor)というのは、DNAの配列を認識及び結合することにより、遺伝子の発現をコントロールする機能を備えています。

 

本論文では、リンタンパク質(phosphoprotein)の発現と転写因子の活動を関連させて、片方のデータが与えられたときに、もう片方のデータを予測するモデルが提案されました。

 

ここで、リンタンパク質とは、リン酸基を含むタンパク質の総称で、タンパク質がリン酸化することによって数々の病気が起きることが知られています。特に、異常なリン酸化が起きると細胞の増殖にトラブルが発生し、発がんリスクが高まることが知られています。例えば、世界で最初に発見されたがん遺伝子(scrがん遺伝子)はこのタイプです。また、先に述べたユビキチン化もリン酸化の一つです。

 

f:id:Longman:20170729191343p:plain

本論文で用いられている手法は主に、Osmanbeyogluらによって開発されたLinking signaling pathways to transcriptional programs in breast canceに基づいています。

 

結果

既に知られていた結果と整合性が取れた形で、さらに以前には知られていなかった新しい関係性が示唆されました。

 

以下の図では予測されるTFの活動とリンタンパク質の活動の対応がまとめられています。まず、4つのユビキチンリガーゼ遺伝子とどのTFが関連しているかを表したのが一番右のバーコードのような図にまとめられています。そして、人間の10タイプのがんに対するそれら4つの遺伝子の寄与が上の色付きのバーコードのような図でまとめられています。

f:id:Longman:20170729203849p:plain

 

 

他にも、例えば、TFとタンパク質のつながりを表す図の一つが次のように得られました。

 

f:id:Longman:20170729210434p:plain

そして、TFとタンパク質の相関関係が、例えば次の表で捉えられました。

f:id:Longman:20170729210438p:plain

 

結論

この論文では、人のガンに対するユビキチンリガーゼ遺伝子同士の相互作用を明らかにするモデルが得られました。

 

人工知能とがんについて

 そもそも「がん」に対する現在最も根治的な治療は外科手術です。言い換えれば「手術できるうちに発見をして、がんによる被害を最小限にする」ということです。よって「人間からガンを発生させない」という研究よりは「がんの早期発見を正確に行う」という研究の方が圧倒的に現実感を持った研究というわけです。そういう意味で人工知能が人間よりもガンを早期発見できれば医療の未来は明るいと言えます。

 しかし全てのがんが外科治療で治るのは難しく、薬剤によるアプローチは非常に重要です。抗がん剤の中で最もテーマに上がるのは「耐性」です。それにCancer Heterogeneityという概念が非常に重要であり、弊社も研究を行っています。

 

 次回もICMLに関連する論文をご紹介する予定です。また、弊社AUGRIMからも、がん研究に関する関連論文が2本採択されています。共同研究・製品の共同開発等のご依頼も随時承っておりますので、是非ご連絡ください。

 

 

ところで、人工知能とは? ~Deeper Mindを目指して~

こんにちわ、株式会社NAMの中野哲平です。

The Imitation Game

空前絶後の"人工知能"ブーム”が訪れている現在では、プログラミングに関する特別の知識がなくても、本やwebサイトに書かれてあることを真似 (Imitate) すれば、誰しもが簡単なAIを作れる時代になりました。

 

実際にプログラムを作成して、初めて画像認識や自動翻訳などを体験したときは純粋に驚くばかりです。それと同時に、この人工知能ブームに影響された多くの方々は、”これは本当に人工知能と言えるモノなのか?”という疑問を持っているはずです。"人工"であることは疑いようがないので、疑問は”コンピュータは知能を獲得したのか?”ということでしょう。

 

現代人とほとんど同じ疑問を持った人物が70年前にもいます。

 

コンピュータの概念を生み出したAlan Mathieson Turing (以下、チューリング)は”機械は思考できるか?”という問に対する論文を1950年に出版しました。チューリングはコンピュータを使って暗号解読に取り組んだことでも知られ、映画にもなっています。

<公式>映画『イミテーション・ゲーム / エニグマと天才数学者の秘密』オフィシャルサイト|大ヒット上映中 

f:id:Longman:20170714140508p:plain

この論文では”機械がどのように振る舞えば、思考しているとみなせるか?”という問に置き換え、"思考とは何か"が論じられています。

 

部屋に男性(A)、女性(B)がいて、別の部屋から第3者(C)がリモートでこの2人に質問するとします。ここで、仮に、実はコンピュータがAの役割を演じたとき、CはAがコンピュータであることを見抜けるか?というのが、チューリングが用意したテストです。コンピュータにとっては、自分がコンピュータであることを気づかれないために、可能な限り人間Aの言動を真似をし、あたかもAが答えているように答えることが、テスト対策だとチューリングは考えました。

 

そして、コンピュータがAを演じていることをCに悟られなければ、コンピュータは思考しているとみなせるだろうとチューリングは提案しています。このテストはチューリングテストと呼ばれています。

 

 

Learning Machines

同じ論文の最後の章でチューリングは現在の機械学習に相当する枠組みを提案しています。彼は、機械が人間を真似するために、学習が必要だと考えたわけです。

(a) 初期状態

(b) 教育を与える

(c) 教育以外の別の経験をさせる

驚くべきことに、これら3つは、現在の機械学習では教師あり学習と呼ばれる学習プロセスと全く同じであることに気づきます。もう少し丁寧に説明すれば、

(A)何もデータが与えられていない状態

(B)データを読み込み、学習する

(C)与えられたデータ以外でも対応できるようにする。(過学習を防ぐ)

というのが、現在の教師あり学習です。

 

そして今

自動応答ロボットや、SNSのチャットボットなど、人間の会話を模倣するAIは既に存在するので、チューリングテストに合格可能という意味において、コンピュータは思考能力を有しているのが、現在のAIです。更に、深層学習や強化学習など、チューリングが思い描いていた以上のことが実現しています。従って、もしチューリングが現代にいれば、我々は既に思考する機械を手に入れた、素晴らしい人類だと驚くかもしれませんね。

 

Beyond

ところで、果たしてこれで満足できるかというのが、次の問題です。まず、チューリングテストの合否は結果のみで判断されることに気づきます。コンピュータが人になり済ませられたかどうか、それだけが思考を有しているかどうかの判断基準でした。70年も昔の考え方なので、このような具合のテストで良いのかもしれませんが、現代においては、人間も多角的に評価しようという風潮ですので、機械の思考能力も多角的に判断すべきでしょう。

 

思考にはレベルがあります。チューリングテストでは思考能力の有無を判断するだけでしたが、今後は高い思考力を有するコンピュータを実現するにはどうすればよいかという疑問が生まれます。

 

そこで、次の問を考えてみましょう。

f:id:Longman:20170714154227j:plain

 

を同時に満たす(x,y)の値を求めよ。答えは(x, y)=(2,1)ですが、いま関心があるのは、この問題をどのように解くかです。たくさん解法はありますが、代表的なものは

 

(1) (x,y)に思いつく限り値を代入してみる。

(2)第1式から、第2式を2倍したものを引き、まずはxの値を求める。その後、xを代入してyを求める。

(3)行列を使って解く。

f:id:Longman:20170714155935j:plain

(4)数値計算ソフトを利用する。

 

解法(1)は誰でもできる、最も簡単だけれども、問題によっては解決までの時間がかかる方法です。

解法(2)は中学校で習う、連立方程式の定石的な解法です。

解法(3)は高校あるいは大学で習う、行列を使った解法です。

解法(4)では算数や数学を知らなくても、パソコンの知識があれば解を求められます。

 

もうお気付きの通り、これら4つの方法を扱うには求められる技術も、予備知識も大きく異なり、思考力のレベルに差が見られます。現代の機械学習だと、解法(1)に習熟した学習モデルが、ある日突然、解法(2)を思いつくなどということは絶対に有り得ないわけですが、人間であれば可能です。さらに、人間であれば、一度数学の知識を手にしてしまえば、(3)の解法を思いつくのはほとんど苦労しませんが、少なくとも現在の機械学習だと(1)から(3)に行くことは不可能です。

 

この例に限らず、人間の場合は仮に他人から習わなくても、より良い解法を考えつくことはごく普通にありますが、コンピュータでは実現できていません。ここに、人間が漠然と抱く、”思考”という概念と、チューリングテストに合格した機械にとっての"思考"に大きなギャップが見られます。

 

今後の目標は、より高い知能レベルの獲得を目指すことがポイントで、問題が与えられたときに、適切な解法を提示できる人工知能が欲しいところです。

 

数年後、仮に人工知能ブームが過ぎ去っても、思考レベルの高い機械の実現と、社会へのより良い貢献を目指して、弊社AUGRIMはさらに研究、開発を進めて参ります。弊社の技術は医療のみならず、様々な分野で利用されています。

 

共同研究、製品開発の受注などは随時承っておりますので、お気軽にご連絡ください。

心電図は人工知能が医者より正確に読める

こんにちわ、株式会社NAMの中野哲平です。

 

タイトル通りの論文がStanford大学から発表されました。

ついに人工知能が医者の仕事を奪い始めたか?と思ったあなたへ。医療は診断が全てではありません。診断は医療のごく一部です。こちらの記事をお読みください

 

[1707.01836] Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks

               f:id:keivard:20170707120015p:plain

まずは簡潔に話をまとめます。

目的:  

心電図から不整脈を発見する機械学習を開発

手法:

34層の畳み込みニューラルネットワークを利用

データセット:

29,163人の患者から合計で64,121個の心電図データ

(#過去研究のデータセットより500倍データ量が大きい)

入力: 心電図

出力: 12の不整脈の種類, sinus rhythm, noiseの14種類のクラスを予測 (各種類どういう心電図か見たい人は後ろの画像をどうぞ)

精度:

6人の循環器内科医より精度が良いモデルを作ることができた。感度が80%,特異度が78%のモデル。

課題

未だに対応できていない心疾患がある。これに対応して行きたい。

              f:id:keivard:20170707120053p:plain

 

f:id:keivard:20170707120206p:plain

コメント:

 心電図の予測というのは新しいものではなく、随分前から多くの研究があります。私がこの研究で驚いたのはデータの整備です。機械学習というと、「予測精度の高いモデルを開発した」という研究ばかりに目が行きがちですが、このようにデータを幅広く収集することも大変重要な研究かと思います。

 またどのようにデータを取得したのか?と疑問に思った方。彼らはZIOパッチというウェラブルに心電図を計測できる機器です。(いわゆるHolter心電図です)

irhythmtech.com

 

弊社AUGRIMではこの論文の他にも、機械学習を用いて医療に関する様々な研究を行っております。共同研究や製品開発のご依頼などは随時承っておりますので、お気軽にご連絡ください。 

 

がん治療・研究に対する計算生物学的アプローチ

こんにちわ、株式会社NAMの中野哲平です。

 

 人工知能を用いて医療をより良くする研究は非常にホットな話題で、特に新薬の開発やがんの研究などは注目を集めています。

 

 例えば、クイズ王とクイズバトルをして勝利したことで一躍有名になったIBM人工知能Watsonは、今やがん治療に欠かせない新しい頭脳となるべく、世界トップレベルのがん研究所であるメモリアル・スローン・ケータリング・がんセンター(Memorial Sloan Kettering Cancer Center) との共同研究で目覚ましい成果を上げています。

forbesjapan.com

www.mskcc.org

 その他にも国内企業としては、深層学習に特化したベンチャーPFNもガン研究に非常に力を入れいます。

 

 ところで、機械学習の世界最大の国際会議の一つであるICML (International Conference on Machine Learning)では毎年、メモリアル・スローン・ケータリング・がんセンターが主催するワークショップが開かれています。弊社の論文が2本とも評価され、このワークショップで発表させていただく事になりました。WCB @ ICML 2017 今回はこの内の1つの論文について簡単にご紹介します。

研究の出発点

 まず、がんについて少し説明します。がんは遺伝子に異常があるために細胞の増殖が異常に早く進行する病気です。したがって、がんを治療をするには、がん遺伝子と通常の遺伝子を区別することが最初の課題です。

 がん化しやすい遺伝子というのがもともと私達の体内にありますが、この遺伝子はがん化するまでは正常の遺伝子です。この正常な場合と異常な場合を区別することが、がん治療の出発点です。具体的には遺伝子の発現量を比較することにより、どの程度がん化しているかがわかります。

がん細胞の複雑さを明らかにする

 ところで、通常、がんが発見されるレントゲン写真やCT画像などでは遺伝子は当然見えず、大まかに細胞ががん化していることだけがわかります。しかし、細胞の中にはたくさんの遺伝子があり、一口にがん細胞と言ってもその構造は非常に複雑です。つまり、どの遺伝子がどの程度がん化しているかを突き止めて初めて、がん細胞の全体像が見えるわけです。下記ではClonal Theoryと呼び、ガン発生初期の段階では単一のがん細胞しかいませんが、進行して行く中でがん細胞の中でも個性が生まれ(Sub Population)、多様性を生み出していきます。

f:id:keivard:20170704111014p:plain

 そして、腫瘍の中でも場所によってその遺伝子の発現量は一般に異なっており、これを腫瘍内不均一性(tumor heterogeneity)と呼びます。私達の論文ではこの不均一性を数学的モデルを用いて表し、数百種類もある全ての遺伝子の発現量を一目でわかる図を作成しました。腫瘍内不均一性について詳しく学びたい方は下記を御覧ください。

Tumor Heterogeneity—A ‘Contemporary Concept’ Founded on Historical Insights and Predictions | Cancer Research

 

f:id:Longman:20170703224414j:plainf:id:Longman:20170703224555j:plain

 私達が用いたデータでは1つの腫瘍を6分割し、その腫瘍の各細胞にある遺伝子の発現量(Single-Cell Sequencing)が別の場所の細胞の同じ遺伝子の発現量とくらべてどの程度変化したかを表しています。z座標が遺伝子発現量、(x,y)座標で細胞の位置を表し、発現量の増減は赤・青で色分けされています。矢印の方向は遺伝子発現量の勾配を表しています。この勾配の方向が多様であるほど我々は多様性が高い腫瘍だと判定しています。

 つまり左の図では、腫瘍内不均一性の度合いが著しい、high heterogeneityを表しています。図からは、一つの腫瘍内に場所によって発現量が大きく異なる遺伝子があることが明らかになりました。右の図はlow heterogeneityを表しています。

 

腫瘍内不均一性の可視化が何の役に立つか?

がんの治療において、腫瘍内不均一性を知ることは非常に重要です。なぜなら、治療によって腫瘍が縮小しても、治療抵抗性のあるがん遺伝子が残る(これがhigh heterogeneity)可能性があり、やがてそれらが増殖してがんの再発に至ります。我々の研究は腫瘍内不均一の動きを勾配という観点から分析し可視化するものです。これにより既存のガンを新たなクラスタリングで分けることができ、予後の指標の一つにできる可能性があります。

 

弊社AUGRIMではこの論文の他にも、機械学習を用いて医療に関する様々な研究を行っております。共同研究や製品開発のご依頼などは随時承っておりますので、お気軽にご連絡ください。