大規模情報病理学の進展を見ると、すでにデータが膨大すぎて人間が見て診断するのではなく、人間にわかりやすいように膨大なデータを表示することが重要になっているように見える。ただこのような試みの基礎になるには、現在も臨床に欠かせない HE 染色標本についての病理診断で、これを AI で処理し、その上に組織上での他の情報(例えば蛍光抗体法による診断)などが統合されていくようになると思う。X線写真や MRI など、さまざまな画像診断の AI 化が進んでいる現在、もちろん病理標本の AI 診断研究も進んでいるが、まだ実用には至っていない。
今日紹介するハーバード大学からの論文は、実際に病理診断で行われているのと同じレポート作成が可能な大規模言語モデルについての研究で、3月号の Nature Medicine に掲載された。タイトルは「A visual-language foundation model for computational pathology(コンピュータによる病理診断に向けた画像―言語基盤モデル)」だ。
同じ号にもう一方、大量の病理画像だけをラベル無し・マスクをかけてプレトレーニングした後、ファインチューニングにより画像中の異常を見つけて様々な用途に使えるようにした AI モデルの論文が掲載されていたが、ラベル付きの学習モデルから、大規模言語モデル LLM を用いる病理診断法の方へと移行しているのがよくわかる。
しかし、病理診断は病理医による言語ベースのレポートで行われることが普通で、画像からテキストが生成されるように、あるいは言語から画像が作れるようになるのが望ましい。この論文では、実際の病理診断での標本とレポート、論文に掲載された病理画像とその説明を、コントラスティブ学習により統合してエンベッディングすることで、現在行われている病理診断レポートが可能になるか調べている。
医学の様々な分野で進行している、いわゆる画像と説明のマルチモーダルエンべディングモデルの作成と考えて貰えば良い。じっさいには8台の GPU を備えたコンピュータに100万枚の画像とその説明をラベルなしで学習させた完全に独自のモデルを形成している。
多くの病理診断 AI はガン診断でのパーフォーマンスで評価されており、今回のモデルは全く新しい画像の診断(Zeroshot)では、すべてのガン診断でこれまで作成された他のモデルを凌駕する。さらに、訓練に使ったラベル付けされたデータセットで比べても、他のモデルより勝るという結果だ。
ただ、このような独自モデルでは学習したデータの大きさに限界がある。特に、稀なガンの診断となるとそのパーフォーマンスは低下する。そこで、少数ショット学習でそれぞれのクラスの特徴を示すラベルを増やしてパーフォーマンスを比べ、今回のモデルではより少ないラベルで高いパーフォーマンスに到達できることも示し、モデルのチューニングを工夫することでパーフォーマンスを挙げられる可能性を示している。
では画像からレポート作成が可能かだが、画像を見ただけですらすらレポートができるというわけではない。決まった書式の中の穴埋めを行う形でレポートが作成できるといった程度が現状だ。
他にも、組織上でガンなど病理変化を特定する能力についても調べているが、省略する。
読んだ印象では、他の分野の同じ試みと比べて、まだまだといった感がある。おそらく、病理標本の多様性が大きすぎて、100万程度の学習では、100%に近い診断率まではかなり道のりが遠い気がする。ただテキストと画像の統合は人間が最終判断する場合は必須になるので、さらに数を増やしてパーフォーマンスを上げていく必要があるだろう。また、少数ショット学習だけでなく、最近流行りのプロンプト学習なども合わせることで、進展していくと予想できる。
とはいえ、病理に特化したモデルを拡大していくのか、一般画像を学習したモデルを病理にも使えるようなチューニングを行うのか、素人には予想できない。重要なのは、並行して昨日紹介したような形態と遺伝子発現の統合されたデータが急速に拡大すると思うので、これと統合するという観点では、独自モデルを医学界全体で進めるのがいいような気がする。