11月17日 DNA 言語による生成 AI (11月15日 Science 掲載論文)
AASJホームページ > 2024年 > 11月 > 17日

11月17日 DNA 言語による生成 AI (11月15日 Science 掲載論文)

2024年11月17日
SNSシェア

人間が利用する情報メディアは、生命誕生以後進化の結果生まれた生物学的なメディア(DNA, RNA, epigenome)から、人間の脳活動から生成された言語をはじめとする様々な人工メディアまで多種多様だが、最近の生成 AI では、DNA と自然言語の二つの流れに集約している。今年のノーベル賞が示すように DNA に情報を集約する生成 AI は大きな成功を収めているように思うが、ゲノムのような大きな情報の全体までカバーできているかと考えるとまだまだで、現在のところ個々の遺伝子というレベルで解析がとどまっている。これは原核生物のゲノムでも自然言語で書かれた本と比べても長く、現在のトランスフォーマー/アテンションでは注目すべきトークンを決めるアテンションの扱える長さに限界があるため、開発が遅れていた。

今日紹介するスタンフォード大学と Arc 研究所からの論文は、トランスフォーマーの代わりに最近開発された StripedHyena を用いることで、13万トークン(この場合1トークンが一塩基部分に対応するため、130Kbの配列に当たる)をアテンションできるモデルを用いて、原核生物ゲノム3000億塩基対を学習させた Evo と呼ぶモデルを作成している。

まず同じデータをトランスフォーマーなど他のモデルに学習させ、処理スピードなどを比べ、期待通り StripedHyena が他のモデルを凌駕することを確認した上で、ゲノム全体のコンテクストを Evo がどこまで抽出できるか様々な角度から調べている。

まず、ゲノム上に突然変異が起こったとき、バクテリアが生存できるかどうか、実際の実験データのあるバクテリアについて調べると、もちろん完璧ではないが他のモデルと比べてパーフォーマンスは高い。他にも、タンパク質に翻訳されない noncoding RNA の必要性や、プロモーターの必要性など、それ専用に開発されたアプリに匹敵できるパーフォーマンスを示す。すなわち、長いゲノムのコンテクストの中で突然変異や各領域の意味を予測できる。

そこで、生成 AI として新しい意味のある配列を精製できるか調べる目的で、ガイド RNA などの領域と、DNA 切断する Cas9 が一体となってコードされている CRISPR-Cas を学習させ、そのあと11種類の Cas9 配列をプロンプトとして用いてファインチューニングすることで、新しい Cas9 とクリスパーセットを生成させている。もちろん生成された配列の中には全く機能を発揮できないものも存在するが、EvoCas9-1 と名付けた新しい配列は知られている Cas9 とは70%程度の相同性しかないが、十分機能することを実験的に確かめている。すなわち、機能的タンパク質とノンコーディング RNA をセットとして新たに生成することができる。

同じように、トランスポゾンのように遺伝子組み換えに使えるユニットを新たに精製できるかも調べ、相同性が60%程度でもトランスポゾン活性を持つ配列を予測できることを示している。

また、ゲノムがコードするどの遺伝子が細菌の生存に必要かについても、実際のノックアウト実験にかなり近い予測が可能であることを示している。

その上で、独立した細菌に必要なゲノムを予測させる実験を行い、生成された新たなゲノムに細菌が生きるために必要な遺伝子やノンコーディング領域が実際の細菌と同じような構造を示して並んでおり、予測された遺伝子の構造もアルファフォールドで予測できることを示している。すなわち、現存しない生命を新たに設計する可能性に近づいたことを示している。ただ、こうして予測したゲノムには tRNA は揃っていてもリボゾーム RNA が3種類しかなく、生命の設計図からはほど遠い。

以上が結果で、確かにまだまだ完全とはいえず原核生物に限られたモデルだが、生成AIの常で GPT-1 が大きなパラメータを扱えるサイズに高めて GPT-4 になると、予想以上の完全性を発揮するのと同じで、今後生命情報の設計が可能になる可能性は十分ある。

この論文のサプリメントには倫理と安全性についても議論が行われており、著者自らもその可能性に驚いた結果だと思う。

この論文を読んで最も印象に残ったことは、我々素人はトランスフォーマーが全てと思ってしまうが、すでにこの限界を破るべく新しいモデルが続々開発されていることで、先月紹介したグーグルからの論文では新しいチンチラと呼ばれるパラメーターを減らして同じパーフォーマンスを得るモデルが使われていたし、今回の StripedHyena はアテンションできるトークンの長さ伸ばすモデルで、すさまじい競争が進んでいるのを実感する。このような新しいモデル開発での我が国の実力についても是非知りたい。

カテゴリ:論文ウォッチ
2024年11月
« 10月  
 123
45678910
11121314151617
18192021222324
252627282930