過去記事一覧
AASJホームページ > 2024年 > 11月 > 13日

11月13日 自然言語に全ての医療データを集約させた大規模言語モデル(11月6日 Nature オンライン掲載論文)

2024年11月13日
SNSシェア

「心と身体」の統合の問題はデカルト以来、様々な議論が続いてきた。基本的に医学はデカルトの二元論に沿って考える癖がついており、身体を切り離して理解しようとしてきた。この議論を今年のノーベル賞から考えるのも面白い。ノーベル化学賞はAlphaFoldやRosettaを用いたタンパク質設計に授与されたが、身体の仕組みの理解を DNA に情報を集約させて生成 AI を用いることで可能にすることへの期待が示された。これに対し Chat GPT などは自然言語を情報の集約点として様々な情報を統合しようとしているが、自然言語が脳活動の産物であることを考慮するとこれが心の領域と言ってもいいように思う。こう考えてみると、人間(= DNA と自然言語を情報媒体として利用する唯一の生物)を扱う医学は、どちらにもトランスフォーマーが使われていることを利用して、DNA と自然言語=身体と心を統合する研究を行うチャンスがある。

現代の医学は、ゲノム配列から脳活動計測まで、様々な独自のデータであふれているが、少し考えてみると、画像も検査データも学習させていない ChatGPT がかなり正確な医学知識を提供できると言うことは、すでに多くのデータがアノテーションという形で自然言語に翻訳され、正確な医学知識を蓄積できていることになる。

今日紹介するニューヨーク・スローンケッタリング ガン研究所からの論文は、ゲノムから画像まで医学データをカルテやレポートに書かれた言語情報だけから十分引き出してガンの予後を予測することが出来るという、まさに自然言語の持つパワーを示した研究で、11月6日 Nature にオンライン掲載された。タイトルは「Automated real-world data integration improves cancer outcome prediction(自動化したリアルワールドデータがガンの予後の予測精度を高める)」だ。

この研究では、患者さんのガン治療の全過程について記載された電子カルテデータの中から、言語によって書かれたデータを GENIE Biopharma Collaborative と呼ばれるアプリを用いて、自動的に構造化して集め、これをトランスフォーマー言語モデルに学習させている。これには病理組織のレポートや、レントゲンの読影レポートも含まれ、患者さんの生存期間中のデータを統合できるようになっている。一部病理組織検査の悪性度のような数値も取り込めるようにしているが、例えばゲノムデータや画像を別にエンコードして自然言語と統合するマルチモーダルなモデルとは全く違う。即ち、全て人間によって書かれたレポートに基づいている。

こうして出来たガン患者さんのデータを学習した大規模言語モデル MSK-CHORD は、ガンの遺伝子発現と予後についてかなり正確に予測することが出来る。例えば PD-L1 陰性の肺ガンはチェックポイント治療に反応性が悪いことを生存曲線としてまとめることができる。

ゲノムは FDA の認める方法、例えば K-RASG12C 変異ありとか、HER2 遺伝子増幅と言った形で記録されているので、全ゲノムレベルでの解析ではないが、各ガン遺伝子やガン抑制遺伝子とガンの経過については正確に予測できる。例えば肺ガンの転移一般は TP53 や CDKN2A 変異と相関するが、Rb1 変異は脳転移と関係することなどだ。

また、ガンもステージが進むほど様々なデータが記載されているので、そのデータを元にステージ4の患者さんの予後をさらに正確に予測することができる。もちろん現在の医療現場でも予測は行われるが、学習したデータに基づき分類されることで、これまで気づかなかった要因を調べ出すことも可能だ。

またネガティブな結果だけでなく、例えば肺ガンの場合 SETD2 ドライバー変異がある場合は、予後がよいことも予測できる。

以上が結果で、生成 AI なので現象の原因やメカニズムはわからないが、ガン患者さんの予後や転移といった問題に、カルテの記載だけからかなり正確な予想が出来ており、トランスフォーマー言語モデルの万能性を実感する。面白いのは、膵臓ガンなど、このモデルがうまく働かないケースもある点だ。今後、自然言語以外のデータもトークン化して使うマルチモーダルな AI と比べることで、自然言語だけではうまくいかない理由がわかるのではないだろうか。このように問題はあるにせよ、人類が生み出し育んできた自然言語のデータ蓄積力のパワーを改めて実感した。

カテゴリ:論文ウォッチ
2024年11月
 123
45678910
11121314151617
18192021222324
252627282930