AASJホームページ > 新着情報 > 論文ウォッチ > 11月17日 DNA 言語による生成 AI (11月15日 Science 掲載論文)

11月17日 DNA 言語による生成 AI (11月15日 Science 掲載論文)

2024年11月17日
SNSシェア

人間が利用する情報メディアは、生命誕生以後進化の結果生まれた生物学的なメディア(DNA, RNA, epigenome)から、人間の脳活動から生成された言語をはじめとする様々な人工メディアまで多種多様だが、最近の生成 AI では、DNA と自然言語の二つの流れに集約している。今年のノーベル賞が示すように DNA に情報を集約する生成 AI は大きな成功を収めているように思うが、ゲノムのような大きな情報の全体までカバーできているかと考えるとまだまだで、現在のところ個々の遺伝子というレベルで解析がとどまっている。これは原核生物のゲノムでも自然言語で書かれた本と比べても長く、現在のトランスフォーマー/アテンションでは注目すべきトークンを決めるアテンションの扱える長さに限界があるため、開発が遅れていた。

今日紹介するスタンフォード大学と Arc 研究所からの論文は、トランスフォーマーの代わりに最近開発された StripedHyena を用いることで、13万トークン(この場合1トークンが一塩基部分に対応するため、130Kbの配列に当たる)をアテンションできるモデルを用いて、原核生物ゲノム3000億塩基対を学習させた Evo と呼ぶモデルを作成している。

まず同じデータをトランスフォーマーなど他のモデルに学習させ、処理スピードなどを比べ、期待通り StripedHyena が他のモデルを凌駕することを確認した上で、ゲノム全体のコンテクストを Evo がどこまで抽出できるか様々な角度から調べている。

まず、ゲノム上に突然変異が起こったとき、バクテリアが生存できるかどうか、実際の実験データのあるバクテリアについて調べると、もちろん完璧ではないが他のモデルと比べてパーフォーマンスは高い。他にも、タンパク質に翻訳されない noncoding RNA の必要性や、プロモーターの必要性など、それ専用に開発されたアプリに匹敵できるパーフォーマンスを示す。すなわち、長いゲノムのコンテクストの中で突然変異や各領域の意味を予測できる。

そこで、生成 AI として新しい意味のある配列を精製できるか調べる目的で、ガイド RNA などの領域と、DNA 切断する Cas9 が一体となってコードされている CRISPR-Cas を学習させ、そのあと11種類の Cas9 配列をプロンプトとして用いてファインチューニングすることで、新しい Cas9 とクリスパーセットを生成させている。もちろん生成された配列の中には全く機能を発揮できないものも存在するが、EvoCas9-1 と名付けた新しい配列は知られている Cas9 とは70%程度の相同性しかないが、十分機能することを実験的に確かめている。すなわち、機能的タンパク質とノンコーディング RNA をセットとして新たに生成することができる。

同じように、トランスポゾンのように遺伝子組み換えに使えるユニットを新たに精製できるかも調べ、相同性が60%程度でもトランスポゾン活性を持つ配列を予測できることを示している。

また、ゲノムがコードするどの遺伝子が細菌の生存に必要かについても、実際のノックアウト実験にかなり近い予測が可能であることを示している。

その上で、独立した細菌に必要なゲノムを予測させる実験を行い、生成された新たなゲノムに細菌が生きるために必要な遺伝子やノンコーディング領域が実際の細菌と同じような構造を示して並んでおり、予測された遺伝子の構造もアルファフォールドで予測できることを示している。すなわち、現存しない生命を新たに設計する可能性に近づいたことを示している。ただ、こうして予測したゲノムには tRNA は揃っていてもリボゾーム RNA が3種類しかなく、生命の設計図からはほど遠い。

以上が結果で、確かにまだまだ完全とはいえず原核生物に限られたモデルだが、生成AIの常で GPT-1 が大きなパラメータを扱えるサイズに高めて GPT-4 になると、予想以上の完全性を発揮するのと同じで、今後生命情報の設計が可能になる可能性は十分ある。

この論文のサプリメントには倫理と安全性についても議論が行われており、著者自らもその可能性に驚いた結果だと思う。

この論文を読んで最も印象に残ったことは、我々素人はトランスフォーマーが全てと思ってしまうが、すでにこの限界を破るべく新しいモデルが続々開発されていることで、先月紹介したグーグルからの論文では新しいチンチラと呼ばれるパラメーターを減らして同じパーフォーマンスを得るモデルが使われていたし、今回の StripedHyena はアテンションできるトークンの長さ伸ばすモデルで、すさまじい競争が進んでいるのを実感する。このような新しいモデル開発での我が国の実力についても是非知りたい。

  1. okazaki yoshihisa より:

    確かにまだまだ完全とはいえず原核生物に限られたモデルだが、、今後生命情報の設計が可能になる可能性は十分ある。
    Imp:
    Demis Hassabis曰く:今後は細胞をターゲットにしたい。
    アルス・コンビナトリアの威力です。
    生命をデザインする時代の到来!

    実験医学別冊 
    AlphaFold時代の構造バイオインフォマティクス実践ガイド〜今日からできる!構造データの基本操作から相互作用の推定、タンパク質デザインまで – 羊土社

  2. YH より:

    11月13日のNatureの論文では電子カルテ記録やがんゲノムプロファイル検査情報から言語モデルで情報抽出とデータ解析が進んでいることが示され、この論文では設計図のDNAでも情報解析処理が進んでいることが示されている。我が国の研究者が追いつくためには、ネットを通じて興味ある分野に多くの人間が途中参加ができるようにしながら協同作業で研究を進めるのがよいような気がする?若い人たち(初心者)むけに、学校や塾に行かずあるいは指導がなくても自己学習として、簡単な入門編のような内容をネット学習できるようにしたら、とっつきやすいと感じる人がいるような気がする。

    1. nishikawa より:

      これまでの生物情報に基づいて、新しい生命に対応するゲノムを設計できるところまで行きそうな気がします。若者がもっと外国に行くしかないと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

*


reCaptcha の認証期間が終了しました。ページを再読み込みしてください。