機械学習は任意に選んだ指標と予想したい状態の間に何らかの相関があれば、私たちの感覚では気づかない変化を学習して、かなり正確な予想を可能にしてくれる。このことから、ガンの診断分野では、我が国を始め多くの研究プロジェクトが進んでいると思う。
今日紹介するテキサス大学サウスウェスタン医学センターからの論文はガン早期診断のための機械学習についての研究と片付ければそれまでだが、ガンに対する免疫反応を指標に機械学習を行なっている点、すなわちガンそのものではなくガンを映し出す鏡に映った像を利用している点で、これまで読んだ中では最も面白いと思った。タイトルは「De novo prediction of cancer-associated T cell receptors for noninvasive cancer detection (ガンの非侵襲的診断に向けたガンに関わるT細胞受容体の予想)」だ。
多くのガン患者さんにチェックポイント治療が有効であることは、ガンに対するT細胞免疫が成立していることの証拠だが、このことはガン特異的な何らかの抗原を認識するT細胞受容体(TcR)が誘導されていることを意味する。とすると、ガンの発生には通常長い時間がかかるので、かなり早い段階からガン特異的TcRが誘導されている可能性があり、どのTcRがガン抗原特異的であるかがわかると、ガンの代わりに反応するTcRを見つけて診断することは原理的に可能だ。
しかし、個別のガンに反応しているTcRを特定することなど、実際の臨床では簡単でない。そこで機械学習を登場させて、TcRの可変部アミノ酸配列から、ガンに特異的と考えられるアミノ酸配列を導き出そうと著者らは考えた。はっきり言って、この発想が研究のすべてで、言われてみればかなり説得力があることがわかる。
この研究ではまずガン組織のゲノム解析データベースからTcRβ鎖の最も変化が激しいCDR3領域の配列を取り出し、ガンのサンプルとして機械学習させるとともに、正常コントロールとして末梢血の遺伝子データを用いて学習させ、あとはこのAIの性能を様々なデータベースを用いて検証している。
最初にガンのネオ抗原や、ガンウイルス、インフルエンザウイルスと反応することがわかっているTcRレパートリーを用いて、機械学習の能力を検証し、
- TcRによるガンの診断は組織適合抗原に依存しないこと。
- 学習に用いたデータに存在しなかったTcRでも、その性質からガン特異的であることを診断できること。
- 学習にはガン組織に浸潤しているT細胞のデータが用いられているが、末梢血で診断が可能なこと。
をまず確認している。
その上で、この学習結果から導き出せるガンらしさの指標Cancer Scoreを考案し、調べたほとんどのガンでCancer Scoreを用いてガンと、正常人や感染症の人を区別できることを示している。驚くことに、診断の難しいすい臓ガンでも、末梢血を用いてAUC0.99という高い診断能力を示している。
さらに初期ガンから診断が可能かも調べており、すい臓ガンでもステージIIの段階からAUC0.93という確率で予測が可能であることを示している。
最後に、ゲノム解析ではなく、末梢血での発現遺伝子データベースからもTcRを抽出して診断に持ちられるか、腎臓ガンとグリオーマで調べると、AUC0.85前後の予測能力があることを示している。
実際の臨床に応用できるかはさらに研究が必要だろうが、個人的には大変興味を持っている。まず、機械学習研究の中では発想が新しい。しかも、TcRβ鎖のCDR3だけでここまでの性能を叩き出しおり、TcRαもうまく使えればさらに精度が上がる可能性がある。そして何よりも、独立した指標としてCancer Scoreを提案できているので、このスコアを他の診断指標と組み合わせることも容易だと思う。期待したい。