生物分野での AI 研究を代表するのが2021年にスタンフォード大学とカリフォルニア大学が設立した Arc 研究所で、10万以上のトークンをアテンションできる新しい LLM モデルを用いて原核生物のコードしているクリスパーやトランスポゾンの全く新しいデザインを可能にする Evo と呼ばれるモデルを発表したことについては昨年11月このブログで紹介した(https://aasj.jp/news/watch/25610)。 Evo モデルは真核生物のゲノムも学習した Evo-2 へと発展し、NVIDIA よりウェッブ公開され、生物が38億年の進化の歴史で積み重ねてきた DNA に書かれたコンテクストを擁するモデルができあがったことを今週号の Nature が報告していた( https://www.nature.com/articles/d41586-025-00531-3 )。
もう一つの新しい AI 研究所が2023年に設立された EvolutionaryScale で、多くの AI 企業からの出資で運営されており、アミノ酸配列、3次元構造、そして機能についての自然言語情報の3種類を統合した EMS3 を発表している。この研究所の所長はメタに在籍して ESMfold などを設計した Rives さんだ (https://www.evolutionaryscale.ai/?utm_source=chatgpt.com)。
今日紹介するのは2つの代表的 AI 研究所、EvolutionaryScale と Arc 研究所が、カリフォルニア大学バークレー校とともに発表した論文で、ESM3 の構築と、これにより何が可能かを示しており、米国の AI 研究の方向性を知るのに格好の研究で、2月21日号 Science に掲載された。タイトルは「Simulating 500 million years of evolution with a language model(5億年の進化を言語モデルでシミュレーションする)」だ。
もちろんこの論文を読んだからと行って私には完全に研究の詳細について理解できるわけではないが、EMS3 の構築をある程度は理解できた。
このモデルでは、遺伝子配列、タンパク質の3次元構造、そして自然言語で表現された機能を別々のトークンとして用意し、モデルにインプットするときに融合して学習させている。実際、我々は自然言語のプロンプトで画像を生成できるし、また GoogleMisense は配列を3次元構造に再構築できるかどうかを基礎に、自然言語に翻訳し直しているので、EMS3 の構築の原理はある程度理解できる。
このような方法が一般的な LLM の法則に従うかどうかを、パラメータを変えたモデルを構築して、パラメータの数が大きくなるほど正しい予測が可能であることを示している。こうしてできあがった多次元空間には各タンパク質の構造が配列、さらには機能ラベルがついて配置されている。
まず、このモデルを使って例えば酵素機能についての自然言語と、ヘリックスループ構造をインプットすると、この機能を保つ新しい分子構造と、その配列がいくつか提示される。これを使うと、同じ機能を保つもっと短いタンパク質を設計させることができる。
この有用性をさらに調べるために、GFP 蛍光タンパク質を新しく設計できるか、必要なアクティブサイトの構築と自然言語のプロンプトから設計させている。実際には数多くのタンパク質が設計できるが、この中から構造をベースにフィルターした一つのタンパク質をベースにさらに設計を繰り返させると、最終的に実際の GFP と匹敵する蛍光を発する全く新しいタンパク質を設計することができる。
重要なのは、こうしてできてきたタンパク質を、実際の進化でできたタンパク質と比較できることで、驚くなかれ、いくつかの蛍光タンパク質とほぼ同じ程度のホモロジーを有していることがわかった。ここからもし新しい GFP が現在のタンパク質から進化すると仮定して計算すると、タイトルにある5億年の進化を、ESM3 がシュミレーションし、最終的に新しいタンパク質をデザインしたことを示している。
すなわち、ESM3 にはこれまでの生物進化により生成された様々なコンテクストを表象している多次元空間になる。そして、全く新しいタンパク質が設計できるということは、これまで自然言語だけで議論されてきた「AI に創造性があるのか」という問題が、DNA を融合した言語モデルを用いることで設計される、今まで見たこともない新しいタンパク質の創造として、答えが示されているように思う。
トランプを眺めるとアメリカも退化したかと勘違いするが、Google、Meta、 NVIDIAといったテックは今や生物学や脳科学に研究の重点を移して勝負を始めている。すなわち、生成 AI の勝負は医学生物学、そして統合的人間学の勝負であることがわかる。このような発想が我が国にはなかなか芽生えないのは残念だ。
いずれにせよ、DNA と自然言語の融合がまさに医学生物学分野で進むことは、17世紀以来の心と身体の問題についての新しいしかも統合的見方ができるようになっていることを示している。なんとエキサイティングな時代か、この歳まで生きられて本当に良かったと思う。