αFold2はアミノ酸配列から蛋白質の立体構造を予測する革命的なモデルで、このおかげで今や何億という分子の蛋白構造がかなり正確に解読された。そして何よりも、αFoldこそ、今、世の中の最大関心事になっているGPTなど大規模言語モデルの基盤 Transformer/attention モデルをいち早く使って成功した言語モデルと言える。
私自身は現役の研究者ではないので利用したことはないが、基本的にαFoldは一つのアミノ酸配列に対して一つの構造がモデル化されるシステムになっている。ただ、蛋白質の中には、安定的に複数の構造を取り得る分子が知られており、今日紹介する Brandeis University からの論文は、αFoldに複数の構造をモデル化させるための方法を示した研究で、11月13日 Nature にオンライン掲載された。タイトルは「Predicting multiple conformations via sequence clustering and AlphaFold2(配列をクラスター化してαFold2に複数の構造を予測させる)」だ。
最初に断っておくが、構造解析とAIの方法の詳細に関して、他の分野と比べると私の理解は極めて乏しい。従って、かなり一般的で大雑把な理解の上で、論文を面白いと楽しんでいる。そこで、今回は思い切った単純化をして論文を説明する。さらに正確な理解が必要な人(例えば利用したい人)は原論文を読んでほしい。
さて、αFold2が構造を予測する方法は、構造を知りたいアミノ酸配列に対応させることが出来る、出来るだけ多くのアミノ酸配列データベースから抜き出し、それをもとに Multiple sequence alignment させることから始まる。これにより、アミノ酸配列を特定の蛋白質の系統進化にリンクさせ、蛋白進化を制限する3次元構造がコンテクストととして浮き上がるように設計されている。
この時出来るだけバイアスが入らないようにアラインメントをとることで、一つの構造にたどり着けるように出来ているが、その結果メタモフフィック蛋白質のように2種類の安定構造がある場合でも、一つしか出てこない。GhatGPTで様々な答え方があるのに、一つの答えしか返ってこないのと同じだ。
そこで著者らは2種類の安定構造をとるKaiB分子の構造を決めるとき、Multiple sequencing alignmentのトップ50、及びトップ100を指示して計算させると、それぞれ異なる構造モデルが提供されること、そしてこれらが熱力学的に安定な構造であることを確認する。
すなわち、アラインメントをとった蛋白質構造のコンセンサスが異なる構造に対応することで、これらの蛋白質の配列から一つの構造から、もう一つの構造へとスイッチするために必要なアミノ酸変換についても推察し、実際に3種類のアミノ酸を置換すると、スイッチした構造に安定してしまうことも示している。
最後に、このようにメタモルフィックな構造がわかっている分子ではなく、他の構造可能性が知られていない分子についても、アラインメントが得られる蛋白質の種類をあらかじめ変えて計算させることで、これまで知られなかった新しい構造がモデル化されることを示している。
要するに、コンテクストをうまく変えることが出来れば、出てくる結果を変えることが出来るという話で、Transformer/attentionモデルから考えれば当然の結果だろう。間違っているかも知れないが、一種のトランスファー学習で、どの分野でも大規模言語モデルを活用する一つの鍵が、こんなところにあるように思う。