タンパク質の構造予測だけでなく、核酸から小分子化合物のような様々なバイオモレキュールを予測できる AlphaFold3 が、5月8日 Nature にオンライン掲載された話がメディアを賑わせている。今回の論文は難しいので、研究内容を紹介せず、何ができるかという話だけを書いているようだ。吟味なしに適当に報道するのは日本のメディア報道の典型で、それが如実に表れたのが、小保方さんの論文報道だと思うが、これに加えて今回は少しカチンとくるところがある。すなわち、この論文より1ヶ月前にワシントン大学から同じような内容の RoseTTAFoldAll-Atom が Science に発表された時には、全く報道されておらず、しかも今回の AlphaFold3 紹介時にも、ワシントン大学の論文には全く言及していない点だ。
1ヶ月遅れたが、RoseTTAFold All-Atom 論文について紹介する。タイトルは「Generalized biomolecular modeling and design with RoseTTAFold All-Atom(生体分子の汎用モデリングとRoseTTAFold All-Atom(RAAA)のデザイン)」だ。
この論文を読んだとき、タンパク質構造だけでなく、ほぼすべての生体分子や小分子化合物の相互作用を予測できるという話で、是非紹介したいと思った。しかも、Google ではなく、ワシントン大学など、アカデミアでこの様な研究が進んでいることに感銘を受けた。ただノーベル賞級の仕事でどこかで紹介すると思ったのと、大規模言語モデルを超えて、拡散モデルとガウスノイズや、集合データ学習など、私の最も苦手とする数理処理の話が多く書かれていたので、残念ながら紹介を断念していた。しかし、メディアも取り上げず、さらに今回言及もしないというので、理解できていないことを断った上で、私の理解できた内容だけ紹介する。
タンパク質構造予測というと AlphaFold2 になっているが、ほぼ同時に RoseTTA モデルも発表されていた。利用者では間違いなくAlphaFold2 に先を越されたので、タンパク質系統樹のアラインメント比較に基づく方法では達成できない新たの目的にチャレンジしたのがこの研究だ。
素人にとって、Google 論文と比較すると、この論文の方がよりわかりやすく(といっても難しいが)丁寧に説明がされている。これまでの LLM モデルは相同タンパク質を数多く比較してタンパク質進化で生まれた構造的特徴をコンテクストとして拾う方法だった。ただ、これだと小分子化合物やタンパク質と結合する金属イオンなどは扱えない。
そこで、最も近い相同タンパク質との比較だけを行うことでアラインメントによる制限を外し、分子を構成する要素のタイプ、原子結合のタイプ、そして分子のキラリティーのタイプを、それぞれ1D、 2D、3D Trackとしてモデル化して学習させる方法をとっている。
そして、構造のデコーディングには、ランダムな分子配置からノイズを減らす、画像処理に用いられる拡散モデルが使われている。また、学習時にノイズを入れてそれから正解を予測させる、一種のマスク学習のような方法で正解率の高い学習を可能にしている。
モデルの詳細についての私の理解はここまでだが、このモデルに10万を超えるタンパク質と小分子化合物の結合様態、金属イオン結合したタンパク質の構造データ、そして共有結合を起こす分子結合データを学習させ、このモデルに新しく報告された様々なデータをインプットして、構造予測を行い、その精度を調べている。
これまで LLM ではない構造予測モデルが存在しており、小分子化合物との結合様態予測では RFAA が優れていること、またこれまでのモデルでできなかった金属イオンとの結合による構造、さらには結合により共有結合が生じるようなケースの予測も可能であることを示している。ただ、どこまで精度が上がるのか、今後学習を増やせば解決するのかなどは今後の問題になる。
この研究で私が最も驚いたのは、ある特定の化合物に対するタンパク質をデザインできるという事実だ。すなわち、関与するアミノ酸がランダムに配置された中から、ノイズを減らす計算を繰り返すことで、最終的にフィットするタンパク質の構造が設計できる点だ。
実際、ジゴキシジェニンと結合する新しいタンパク質を設計し、合成してそれを確かめている。同じ実験をヘムやビリンと結合するタンパク質についても行っている。
以上が結果で、私の理解では示された方法は Google とほぼ同じモデルで、全バイオモレキュール構造予測のプラットフォームの糸口ができたと言える。いずれにせよ、この論文は昨年10月に投稿され、Google 論文は昨年の12月に投稿されるという競争が行われている。ただ、アカデミアで独自に進められている努力が先に論文発表につながったことは、この分野でアカデミアもまだまだやれることを示している。このように、新しい課題は山ほどある時に、成功例だけ追いかけるような研究助成のあり方を改めることが重要だろう。