AASJホームページ > 新着情報 > 論文ウォッチ > 9月19日 生成 AI(AlphaFold) により今まで見えてなかった構造が見える 1. AlphaFold による2億種類の構造解析データの解析方法の開発(9月13日 Nature オンライン掲載論文)

9月19日 生成 AI(AlphaFold) により今まで見えてなかった構造が見える 1. AlphaFold による2億種類の構造解析データの解析方法の開発(9月13日 Nature オンライン掲載論文)

2023年9月19日
SNSシェア

ChatGPT が公開される前から、Transformer/attention と呼ばれる生成AIモデルの生命科学への導入が進められていた。中でも最大の成果が Google の研究室から発表された AlphaFold で、それまでの物理化学に基づく構造予測をほぼ過去の者にしてしまった。そして今や、2億種類の蛋白質構造が AlphaFoldデータベースで見られるようになっている。すなわち、実際の構造を見たこともない蛋白質の構造が提供されている。

9月13日、NatureにAlphaFold から見える新しい世界を解析する2報の論文が発表された。私にとってデータ解析分野は最も苦手な分野だが、それでもわくわくする論文なので、今日、明日と順番に紹介することにした。また、28日に予定しているジャーナルクラブでも少し振れようと思う。

今日紹介する韓国ソウル国立大学と、スイスチューリッヒ工科大学からの論文は、2億種類の蛋白質構造を解析するアプリケーションを開発し、見たこともない構造から新たに見える世界を示した研究で、タイトルは「Clustering-predicted structures at the scale of the known protein universe(予想された構造を現在知られる全ての蛋白質スケールで分類する)」だ。

繰り返すが研究で最も重要なデータ処理についてはちんぷんかんぷんで、この研究の結果見えた世界についてのみいくつか紹介する。

まず AlphaFold は、既に解析された36万種類の構造と92%の一致率があり、構造データベースとして信頼でき、公開データの利用も進んでいる。ただ、これまで40万種程度の構造から蛋白質の相同性を調べたり、機能を予測するアプリケーションを使うと、新たに予測された2億を超す構造の相同性やドメイン機能を解析するには、モンスターCPUと呼ばれる計算機でも10年以上かかるらしい。その結果、ほとんどの蛋白質はアノテーションが出来ないまま捨て置かれている。

このグループはまず50%の一致と、90%のアラインメントが取れる構造に限定してAlphaFoldデータベースから5日間で5千万の相同クラスターを特定、構造から相同性や機能を解析する Foldseek を開発した。研究のハイライトは、この開発部分で、これにより新たに見えてきたいくつかの例が示されている。

Foldseek により2億の蛋白質は、200万のクラスターに分類され、そのうち31%はこれまで構造的アノテーションは行われていない。ただ、全蛋白質からみるとアノテーションが出来ていないのは4%程度で、これまでの構造研究で多くのことが明らかになっていることもクローズアップされた。ただ、相同性の基準を高くとっているので、もう少し緩い基準で見れば新しい世界がもっと見える可能性がある。

最後にいくつかの新しい世界の例を箇条書きにしておく。

  1. 相同性が特定できることで、これまでアノテーションが出来ていない多くの蛋白質の機能が予測できるようになった。こうして新たにあのテーとされた分子はトランスポーターや膜蛋白質が多い。
  2. これまで全くアノテーション出来ていない構造の進化を調べると、系統学的に古い構造が多く見つかり、細菌、古細菌、真核生物共通の構造も見られる。一方、新しく進化した構造は少なく、ヒト特異的に進化した構造は皆無と言える。
  3. ヒトとバクテリアで構造が共通する分子には、自然免疫に関わる分子が多く、高等動物の自然免疫分子の機能は、原核生物でも必要とされていることがわかる。
  4. 中でも面白いのは、我々が外来DNAセンサーとして使っているAIMが、これまでの検索では関係がわからなかった、クロストリジウムや腸内乳酸菌の相同分子との相同性が明らかになり、原核生物のDNAセンサーがAIM分子として使い回されたことが明らかになった。
  5. もう一つの例は、やはり自然免疫の中心分子gasderminで、最近になってgasderminと相同性を持つ分子がバクテリアにあることが示され始めているが、Foldseekを用いることで、特にこれまでアノテーションが出来ていないGroup1-gasdermin構造がバクテリアのgasdermin相同分子と強い相同性を持つことがわかる。

他にも面白い例が示されているが、それも氷山の一角で、紹介は個々まででとどめる。是非論文を読んで、蛋白質の機能や進化研究にとって全く新しい景色が見えるようになる実感を得て欲しい。

  1. okazaki yoshihisa より:

    2億種類の蛋白質構造がAlphaFoldデータベースで見られるようになっている。
    実際の構造を見たこともない蛋白質の構造が提供可能。
    Imp:
    自然科学領域には、革命的な発見(相対性理論・量子力学・電磁気学・熱力学のような)の余地はなくなった。。。という意見も聞きます。
    人間の認識能力(5感・数覚、それらの組み合わせ)の及ぶ範囲での自然科学は、限界に達しているのかもしれません。
    新種の知性(AlphaFold)との共演による自然探索時代の始まりを告げる出来事かも?

    実験医学:AlphaFoldの可能性と挑戦〜すぐ始められる構造・機能予測から、複合体予測やタンパク質デザインへの応用まで – 羊土社 (yodosha.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

*


reCaptcha の認証期間が終了しました。ページを再読み込みしてください。