ChatGPT が公開される前から、Transformer/attention と呼ばれる生成AIモデルの生命科学への導入が進められていた。中でも最大の成果が Google の研究室から発表された AlphaFold で、それまでの物理化学に基づく構造予測をほぼ過去の者にしてしまった。そして今や、2億種類の蛋白質構造が AlphaFoldデータベースで見られるようになっている。すなわち、実際の構造を見たこともない蛋白質の構造が提供されている。
9月13日、NatureにAlphaFold から見える新しい世界を解析する2報の論文が発表された。私にとってデータ解析分野は最も苦手な分野だが、それでもわくわくする論文なので、今日、明日と順番に紹介することにした。また、28日に予定しているジャーナルクラブでも少し振れようと思う。
今日紹介する韓国ソウル国立大学と、スイスチューリッヒ工科大学からの論文は、2億種類の蛋白質構造を解析するアプリケーションを開発し、見たこともない構造から新たに見える世界を示した研究で、タイトルは「Clustering-predicted structures at the scale of the known protein universe(予想された構造を現在知られる全ての蛋白質スケールで分類する)」だ。
繰り返すが研究で最も重要なデータ処理についてはちんぷんかんぷんで、この研究の結果見えた世界についてのみいくつか紹介する。
まず AlphaFold は、既に解析された36万種類の構造と92%の一致率があり、構造データベースとして信頼でき、公開データの利用も進んでいる。ただ、これまで40万種程度の構造から蛋白質の相同性を調べたり、機能を予測するアプリケーションを使うと、新たに予測された2億を超す構造の相同性やドメイン機能を解析するには、モンスターCPUと呼ばれる計算機でも10年以上かかるらしい。その結果、ほとんどの蛋白質はアノテーションが出来ないまま捨て置かれている。
このグループはまず50%の一致と、90%のアラインメントが取れる構造に限定してAlphaFoldデータベースから5日間で5千万の相同クラスターを特定、構造から相同性や機能を解析する Foldseek を開発した。研究のハイライトは、この開発部分で、これにより新たに見えてきたいくつかの例が示されている。
Foldseek により2億の蛋白質は、200万のクラスターに分類され、そのうち31%はこれまで構造的アノテーションは行われていない。ただ、全蛋白質からみるとアノテーションが出来ていないのは4%程度で、これまでの構造研究で多くのことが明らかになっていることもクローズアップされた。ただ、相同性の基準を高くとっているので、もう少し緩い基準で見れば新しい世界がもっと見える可能性がある。
最後にいくつかの新しい世界の例を箇条書きにしておく。
- 相同性が特定できることで、これまでアノテーションが出来ていない多くの蛋白質の機能が予測できるようになった。こうして新たにあのテーとされた分子はトランスポーターや膜蛋白質が多い。
- これまで全くアノテーション出来ていない構造の進化を調べると、系統学的に古い構造が多く見つかり、細菌、古細菌、真核生物共通の構造も見られる。一方、新しく進化した構造は少なく、ヒト特異的に進化した構造は皆無と言える。
- ヒトとバクテリアで構造が共通する分子には、自然免疫に関わる分子が多く、高等動物の自然免疫分子の機能は、原核生物でも必要とされていることがわかる。
- 中でも面白いのは、我々が外来DNAセンサーとして使っているAIMが、これまでの検索では関係がわからなかった、クロストリジウムや腸内乳酸菌の相同分子との相同性が明らかになり、原核生物のDNAセンサーがAIM分子として使い回されたことが明らかになった。
- もう一つの例は、やはり自然免疫の中心分子gasderminで、最近になってgasderminと相同性を持つ分子がバクテリアにあることが示され始めているが、Foldseekを用いることで、特にこれまでアノテーションが出来ていないGroup1-gasdermin構造がバクテリアのgasdermin相同分子と強い相同性を持つことがわかる。
他にも面白い例が示されているが、それも氷山の一角で、紹介は個々まででとどめる。是非論文を読んで、蛋白質の機能や進化研究にとって全く新しい景色が見えるようになる実感を得て欲しい。