2026年3月12日 | AASJホームページ

AASJホームページ > 2026年 > 3月 > 12日

3月12日 DNAだけを言語として使うEvo2モデル（3月4日 Nature オンライン掲載論文）

2026年3月12日

SNSシェア

私は今 Open AI のGPTを通常使っているが、これが生成AIと呼ばれるのは、文章をインプットしたとき、学習した言語の確率空間の中から新しい単語や文章を生成するからだ。即ち「To be or not to ?」とインプットすると、・・・be, that is the question. と続けてくれる。同じことを生物のDNA配列を学習させてDNAだけを言語とする生成AI構築にチャレンジしてきたのが、ARC研究所、スタンフォード大学、NVDIAで、原核生物のゲノムを学習した Evo1 については2024年11月にこのブログで紹介した（https://aasj.jp/news/watch/25610）。

今日紹介するのは、原核生物だけでなく、酵母から人間まで真核生物のゲノムも学習させた Evo2 についての論文で、以前から査読前の論文を公開するサイトに掲載され、AI x 生物学勉強会でも使っていたが、ついに3月4日 Nature にオンライン掲載された。タイトルは「Genome modelling and design across all domains of life with Evo2（様々な生物のゲノムのモデリングとデザインを可能にする Evo2 ）」だ。

Evo1 を紹介したときに説明したので詳細は省くが、Evo2 は畳み込 (convolution) に rotary attention を統合して、1Mと言う長さの配列を処理できる Striped Hyena をさらに改良した Striped Hyena 2 というアーキテクチャーに、9.3兆トークン（このモデルでは1塩基が1トークン）のDNA配列を学習させている。この時、最初から1Mという長いストレッチではなく、通常使われる短いストレッチを学習させるなどいろいろ工夫があるが、全部割愛する。

こうして完成したモデルは、オープンソースで完全に公開されており、自由にダウンロードして使える様になっている。調べてみると、最近では6000ドルぐらいのワークステーションにクラウドGPUを組み合わせてこのモデルを使っている人が多いようで、研究室で使うことはそう難しくない。

エクソン以外のゲノム領域の多い、即ち進化の情報量の少ない領域の多い真核生物ゲノムを相手に何が可能になるのかを示したのがこの研究で、

様々な突然変異を導入したゲノムをインプットしたとき、次のDNAを生成できる確率から、突然変異の効果を調べることが可能で、ゲノムの情報密度の多い真核生物は言うまでもなく、真核生物でも、同じ目的で構築された様々なモデルを十分凌駕する。
さらに、イントロンの変異についてもかなりのパーフォーマンスを示すことができる。これは１塩基変化にとどまらず、欠損についても効果予測が可能だ。即ち、DNAしか学習させていないモデルで形成されている進化の潜在空間に、変異の結果がコンテクストとして含まれていることを示している。誤解を恐れず言ってしまうと、タンパクの構造や、転写調節などはDNA進化潜在空間の中にコンテクストとしてある程度含まれていることになる。
一般ユーザーにとって重要な方法も提案されている。Evo2モデルでBRCA遺伝子の変異のエンベッディングを作成して、これだけをリッジ回帰分析すると言ったことも可能で、これにより極めて高い確率で変異の効果を推定できる。
同じように、Evo2に形成される表象空間をSAEと呼ばれるニューラルネットの中身を解析する方法を用いて調べることができ、この結果学習したゲノムが、それぞれの特徴に応じてマッピングされていることがわかる。即ち言語モデルで教えなくても単語が名詞や動詞に分けられ、また同じ単語も意味に応じてクラスタリングされるのと同じクラスタリングが行われている。その結果、例えばCRISPRアレーは原核生物の種を問わずまとまって分布しているし、人間のゲノムでも同じ転写因子に結合する部位はクラスターしているのがわかる。もちろんイントロンやエクソンの区別も出来ている。
生成AIなので、長いインプットを入れると次に新しいゲノム配列が生成される。これを利用して Evo1 では新しい原核生物を設計させたり、感染性のあるファージをデザインしたりしていたが、ここではまず人間のミトコンドリアの設計が可能かを調べている。さらに、出芽酵母の配列をインプットし、20種類の330kb配列を生成させ、その中に様々な機能ユニットが存在することを確認している。
この論文で最も面白かったのは、エピジェネティックデザインで、エピジェネティックは細胞ごとに異なるので、ゲノムしか学習させないモデルでどう研究するのかと思って読んでみると、Evo2をクロマチンの予測が可能な Enformer と Borzoi モデルと合体させ、配列とクロマチン構造を紐付けできるようにしている。この紐付けから、例えばES細胞で短いオープンクロマチンが出た配列（モールス信号でトン）、長いオープン配列が見られた配列（モールスでツー）、閉じていた配列（スペース）を集めることが出来る。これを示すためのしゃれた研究も行っており、例えばモデルの Evo2 という名前をまずモールスコードに変え（トン　トントントン　ツー　ツーツーツー　トントントン　ツーツーツー）これをクロマチンの構造のパターンとしてデザインしてから、このデザインに合うDNAストレッチ設計してインプット、Evo2 から出てきた配列を Enformer+Borzoi でサーチし、そのパターンに最も近いDNA配列を選んで、その配列が実際のES細胞に導入したとき、期待通りのクロマチンパターンを示すことを示している。即ち、クロマチンの構造をデザインして例えばエンハンサーを設計できることになる。

以上が主な結果で、最も面白いのはクロマチンの形だけ設計してやると、調節領域を生成できるという結果は驚きで、ゲノムだけを学習させた生成AIモデルも、例えばαゲノムなどと組み合わせることで、生命の設計図を構成的に研究できること大きな可能性を示した結果だ。今後多くの人に使われることで、さらなる可能性が生まれるだろう。我が国でも多くの研究室で利用できるようにすることが重要だと思う。

カテゴリ：論文ウォッチ

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31