2日前から Google AlphaFold が可能にした膨大な蛋白質構造モデルから、それぞれの蛋白質のアノテーションを行う、蛋白質の機能についての理解を深めるための、新しい領域が始まった論文を紹介したところだが、今度は AlphaFold開発の本拠からさらに便利な、アミノ酸変異から病気の可能性を教えてくれる AlphaMissense が報告された。AlhphFold、 MedPalm そして AlphaMissenseと医学領域の公開AI をGoogle が席巻する勢いだが、その一貫性のある努力に素直に頭が下がる。タイトルは「Accurate proteome-wide missense variant effect predicition with AlphaMissense(AlphaMissenseによる蛋白質全体にわたる変異の効果の正確な予測)」で、9月19日 Science にオンライン掲載された。
GWASやゲノム配列決定が進み、我々の前には膨大な数の人間の遺伝子変異リストが存在する。これをアミノ酸をコードする領域の、ミスセンス変異に限っても膨大な数で、明らかな遺伝子変異による疾患として特定されているケースを除くと、多くの変異の意義が定義できないまま置かれている。
現在わかった変異にラベルをつけて機械学習を行うことで、新しい変異を診断する方法の開発が進められているが、うまくいっていない。そこに Transformer/attention を用いる大規模言語モデル(LLM)手法が登場し、アミノ酸のアノテーションや、変異の機能的効果を調べる LLM が開発され、患者さんのゲノム情報とその診断上の意味を診療室の医師が簡単に手に入れる日は近づいてきていた。
ただ、これまでの LLM は変異と医学診断というかなりかけ離れたレベルを統合しているため、正確さの限界があった。この研究では、AlphaFold という蛋白質の構造を介在させることで、変異と病気の相関性をより高めようとする試みになる。
方法だが、これまでの変異と病気診断を直接つなぐのではなく、まずそれぞれの変異箇所をマスクしてAlphaFold にインプットしたとき、構造予測がどの程度影響されるかを調べた上で、それを病気や発生異常とリンクさせるという方法をとっている。ただ、この方法では変異の構造を調べているわけではなく、変異箇所をマスクしたときの構造予測の確率計算変化を使っている点だ。
結果はこれまで開発された変異のアノテーションモデルを凌駕していることが示され、それを公開するといううれしい話だ。
具体的に、どんな変異が発達や健康の異常につながるかを16000蛋白質の、7千万変異について計算した結果のデータベースが提供され、このうち30%は異常の原因と考えられる変異で、この中にはこれまで特定された数の3倍を超える、7000種類の影響の大きなミスセンス変異が含まれている。勿論、あまり影響のない変異であることを確認する意味でもこのデータベースは重要だ。
AlphaFold と同じで、このデータベースには人間の持つ蛋白質に起こりうる2億種類の変異について計算したリストも存在しており、それぞれの分子を研究する前の重要な出発点にもなる。
以上、またまた Google 研究所の論文を紹介することになったが、この分野で世界をリードしていることは確かだ。最初に述べたように、一般医師がゲノム情報をわかりやすく簡単に得られる時代はすぐそこに来ている。
異なるレベルの生命過程を統合することが21世紀の主要な課題と思ってきたが、生成AIがそのための重要なツールとしてまず登場した。さらに目を見張るツールが現れるのか、出来たら我が国の若い研究者から報告されるのを期待したい。
1:一般医師がゲノム情報をわかりやすく簡単に得られる時代はすぐそこに来ている。
2:異なるレベルの生命過程を統合することが21世紀の主要な課題!
Imp:
今日は、この本ですね!
実験医学増刊号
https://www.yodosha.co.jp/jikkenigaku/book/9784758104135/index.html
マルチオミックスの話にしてしまっているとLLMの本質を見失います。若い研究者はこのような本で紹介される話のずっと先を見てほしいと思っています。