免疫反応は一種のイベントレコーダーと言える。例えばウイルスや病原菌が入ってきたとき、特異的な反応を起こすし、自己の抗原でもトレランスが破れると当然反応し、その反応は B細胞 T細胞が発現している抗原受容体に記録される。さらにクラススイッチは抗原に対する長期の反応を意味するし、T細胞に至っては様々な T細胞サブセットが複雑にからむ。考えてみると、免疫学は免疫システムによるイベントレコーディングを研究してきたとも言える。
これまでの免疫学は抗原に反応している抗体や T細胞受容体 (TcR) に焦点を当てて、他の反応は無視してきたが、AI の登場で全反応を学習させることで、免疫システムの状態、ひいてはホストの状態まで予測できないかという研究が進んでいた。
今日紹介するスタンフォード大学からの論文も基本的には従来の研究とあまり変わるところはないが、将来の検査をにらんでか、様々なインプットと AI モデルを同時に確かめている点が新しい。タイトルは「Disease diagnostics using machine learning of B cell and T cell receptor sequences(B細胞とT細胞の受容体遺伝子配列を機械学習させて病気の診断を行う)」だ。
免疫レコーディングは、クローン増幅と選択という進化の過程として記述される。これが何万というクローンの中で起こるのだが、個人的興味として AI がクローンの量的変化をどのように取り込むかだった。実際には、よく似た配列の遺伝子をクローンとして認識できるようにしている。
基本的には個人のレパートリーを病気の名前のラベルをつけて学習させているが、1) B細胞、T細胞の V遺伝子の配列の集合を学習させる、2) VDJ 組み替えと突然変異が起こる CD3 のクラスターを学習させる方法、そして 3) 遺伝子の配列をインプットすると構造が計算され、その類似性で分類できるLLMを用いる方法(先日紹介した ESM-3 の前に構造予測のために開発された ESM-2 が使われている)を独立に用いて、レパートリーから病気を予測する確率を調べ、病気に関係ある変化を分析しようとしている。
繰り返すが免疫反応は個人レベルで起こるクローン選択反応だが、感染症などの病気でラベルして個人を超えて学習しても、かなりの確率で病気と抗原反応性レパートリーをむずびつけるモデルができている。また、必ずしも ESM-2 を用いた構造比較が優れているわけではなく、特に TcR に関しては V遺伝子の配列レベルを学習したモデルの方が予測率が高い。
さらに、病気の種類でそれぞれのモデルの予測性に差がある。一般的には自由度の高い B細胞 V遺伝子配列だが、自己免疫疾患などでは TcR の V遺伝子レパートリーが情報量が多い。
いずれにせよ、3種類を会わせると診断率は高くなり、末梢血のリンパ球の抗原反応性レパートリーを調べることで病気の診断が可能になると結論している。
結果は思ったほどドラマチックではなく、この入り口からさらに大きな世界が開けることを示す研究に思える。人間の場合、生殖細胞系列の遺伝子の数が多く、その上に組み替えや変異による多用性が重なる。実際、特定の病気で特に強く影響する V遺伝子も、このぐらいのニューラルネットのサイズだと調べることが可能で、様々な感染症や自己免疫病で影響力の多い遺伝子が特定できている。従って、このような情報を積み重ねれば、診断目的の AI モデルは完成に近づいていくだろう。
ドイツ留学時代、抗原に対するレパートリーの形成のされ方について研究した経験から言うと、動物実験でもいいので、免疫システム全体を学習させられるモデル作成を目指してほしいと思う。抗体が抗体を誘導するディオタイプネットワークなど、かっての免疫学はいつか免疫システム全体を把握できる日が来るのではと期待した。さらに、動物によっては変異だけでレパートリーを形成する種もある。ぜひ LLM でかっての夢が実現することを願う。