生成AIを用いたタンパク質デザイン分野では昨年のノーベル賞を受賞した David Baker さんが理論から応用まで圧倒的なパーフォーマンスを示しているが、決して独占状態ではなく、様々な研究室から多様なアイデアが生まれているホットな分野になっている。この状況については「AIx生物学勉強会」で紹介したので参考にしてほしい(https://www.youtube.com/watch?v=hBFr9aVoXIQ)。
今日まず紹介したいのは David Baker さんのグループが11月5日 Nature にオンライン掲載した論文で、Bakerさんたちが開発した RDdiffusion によるタンパク質設計法を特定の抗原に対する抗体作成に利用する方法の開発で、タイトルは「Atomically accurate de novo design of antibodies with RFdiffusion(原子レベルで正確な抗体の新たな設計を RFdiffusion で行う)」だ。
何度も紹介しているが、データベース由来のタンパク質構造の物理学的構造を学習させた RFdiffusion は、RoseTTAFold (RF) 構造予測ネットから得られる重みを拡散モデルのノイズ消去に使って特定の機能を保つペプチドを設計する方法だが、どうしても抗体結合部の持つ界面の構造の問題や、一つのタンパク質表面の様々な領域に結合する抗体のデザインは苦手としていた。
今日紹介する新しいモデルは、RFdiffusion を抗体のデザインに至適化するため、データベースに存在する抗原と抗体の配列セットをそのまま学習させるのではなく、大きなバリエーションのある抗体CDR領域以外のフレームワークを固定テンプレートとし、CDR領域の配置のみ変化させた抗体に置き換えてファインチューニングに用いている。このとき、エピトープの一部残基をホットスポットとして学習させることで、様々なエピトームにデザインが向くようにしている。こうして設計された抗体をRFで評価しフィルターをかけることで、特異的結合力の高い抗体を最終的に得られるようにしている。
抗体はH鎖とL鎖のダイマーだが、この枠組みではVHのみだけでなく、VH/VLを持つ抗体の設計が可能で、後者の場合最終的アウトプットは両方の可変部分をつないだ大きなペプチドが設計されてくる。
主に学習に使った抗原に対してデザインした抗体を評価しているが、まだアフィニティーは高くない抗体ができてしまう問題がある。そのため、遺伝的に変異を繰り返させて進化させる方法を用いて有用な抗体に仕上げる必要があり実用化という点ではまだ改良が必要だ。またデザインされた抗体の歩留まりが悪い点も問題で、分子構造を予測する Diffusion を用いることの困難を示しているが、有用な抗体を選ぶフィルタリングを新しい AlphaFold3 に変えることで、より歩留まりを高められる可能性も示している。
実用化にはまだまだという段階だが、面白いのはMHC+ペプチドというT細胞が認識するエピトープに対する抗体を設計できる点で、高いアフィニティーが必要無い場合、CAR-Tのキメラ抗体を設計できる可能性がある。
もう一編の論文は、テキサスバンダービルト大学からで、Bakerさんのように物理化学的構造を指示することには全くこだわらず、ただVHVL抗体配列と抗原エピトープの組み合わせで、ProGen2と呼ばれるタンパク質構造を学習したモデルをファインチューニングして抗体がデザインできるか調べた研究で、11月4日 Cell にオンライン掲載された。タイトルは「Generation of antigen-specific paired-chain antibodies using large language models(抗原特異的VHVL抗体を大規模言語モデルで作成する)」だ。
ファインチューニングに1万を超すコロナ抗体を中心に、2万弱のウイルスに対する抗体と抗原のセットを用いており、抗原エピトープ配列を入力すると抗体配列が出てくるようになっている。
この研究の面白い点は、構造上の可能性をフィルターに用いるのではなく、人間が持っている変異前の抗体遺伝子と比較して新しい抗体配列が発生するかに焦点を絞っている点だ。結果コロナウイルスRBDに対してデザインされた抗体のほとんどが、学習に用いた抗体とは異なる配列を持っており、決して学習した配列を吐き出しているわけではないことがわかる。学習に用いた抗体と新しく設計された抗体をトークン化した多次元空間に分布させることで、デザインがどのように行われているのかも調べることができる。このモデルはアフィニティーという実用性には縛られないようにできているので、デザインされた抗体を実用性でフィルターして比べることで、高アフィニティーが達成されるまでに必要だった変異をたどることができ、抗体設計の戦略に役立てることもできる。
この研究の最大の目標は、抗体設計のために作成されてきた大規模言語モデルでは難しかった、ゼロショットのデザイン、すなわち経験したことのない抗原のエピトープ配列を入れたとき、それに対する抗体が設計できるかを調べている点だ。インフルエンザのHAに対して調べているが、本来生殖系列にコードされているVH/VL遺伝子のCDR領域に変異が入ったHAに対する抗体が設計できることを示している。
以上の結果は、抗体と抗原セットだけでファインチューニングを繰り返すだけで、抗体生成に必要なコンテクストが抽出され、抗原によってはモデルが全く経験していない抗体の生成が行えることを示している。留学して最初に行った研究が抗体レパートリーの形成だったので、生成AIが当然とは言え抗体産生という生物学的側面を見事にコンテクスト化しているのに驚いた。抗体デザインは決して実用化だけのためではない。

面白いのはMHC+ペプチドというT細胞が認識するエピトープに対する抗体を設計できる点で、高いアフィニティーが必要無い場合、CAR-Tのキメラ抗体を設計できる可能性がある。
Imp:
pMHCに対する抗体設計が可能になるとはすばらしい。
TCR-T/CAR-Tの境界も曖昧に、TCR-Mimic抗体療法も可能に!