3月9日 タンパク質の細胞内局在を予測する小規模言語モデル(3月7日 Science 掲載論文)
AASJホームページ > 2025年 > 3月 > 9日

3月9日 タンパク質の細胞内局在を予測する小規模言語モデル(3月7日 Science 掲載論文)

2025年3月9日
SNSシェア

昨年の暮れに、エピジェネティックスの大御所の一人Richard Youngが細胞内のタンパク質分子の動きを測って、この動きが鈍化することが病気の症状の細胞レベルの原因で、この状態を Proteolethargy と呼ぼうと提案した論文を紹介した (https://aasj.jp/news/watch/26318) 。彼は今も多くの論文を発表しているが、研究の焦点がタンパク質の局在、特に相分離と転写調節の関係へと移っているように見えていたので、Proteolethargy の論文を読んで「なるほど」と納得し、新しい領域への飽くなき挑戦をいとわないスピリットを感じていた。

今日紹介する Richard Young と、同じMITの機械学習研究部門からの論文は、相分離やシグナル配列により決定される細胞内局在に特化して作成したタンパク質の言語モデルについての研究で、3月7日 Science に掲載された。タイトルは「Protein codes promote selective subcellular compartmentalization(選択的な細胞内コンパートメント化に関わるタンパク質のコード)」だ。

タンパク質は特定の機能を発揮するために様々要素が集まっている。まず、安定な立体構造をとる必要があり、このタンパク質のコンテクストを予測するのが AlphaFold をはじめとする様々な大規模言語モデルだ。この多次元空間に配置している各タンパク質の記述的な機能を融合させ、例えばリン酸化酵素活性を持つ新しいタンパク質を設計することを試みたのが先日紹介した Evolutionary Scale 研究所のESM3 になる(https://aasj.jp/news/watch/26188)。

相分離などによりタンパク質が様々な細胞内領域に局在化するコンパートメント化に興味を持った Young らは、タンパク質の配列からまずこれを予測する言語モデルが作成できないかと考えた。そのために、タンパク質に表現されるコンテクストと自然言語による記述を融合させられる ESM を選び、細胞内の13カ所のコンパートメントに関する記述を融合させた ProtGPS と名付けた独自のモデルを作っている。

この過程を見て感心したのは、コンパートメント化がはっきりわかっているたかだか5000種類のタンパク質を、800万パラメータの2層からなる小さなニューラルネットに学習させている点だ。すなわち、GPU は必要だが、自分の目的に合わせたパソコンレベルのモデルの利用が始まっている。GPT-4は1750億パラメータで、ずっと小さくて次元圧縮して内部の解析が可能な GPT-2 は17億パラメータだが、今回使われたネットワークは桁違いに小さい。

しかし、5000タンパク質を学習させた ProGPS は、タンパク質のコンパートメント化について極めて高い確率で予測することができる。

ただ、生成 AI という観点からはまだまだ万能ではない。蛍光タンパク質の局在を決めるための配列を設計させても、全くうまくいかない。これは設計でできたタンパク質の折りたたみを含むタンパク質としての化学的性質が表現できていないためで、これを改善するため配列設計を既存のタンパク質言語モデル EMS2 に存在する配列に限ること、本来のタンパク質の折りたたみを変化させないこと、目的のコンパートメントに存在するタンパク質が持っている配列であることなどの条件を加えて設計すると、ようやく核内局在で 4/10 で成功するようになる。今後学習するタンパク質を増やしたモデルが形成されると、他のコンパートメントも含め、コンパートメント化を指定できる新しい配列も設計できるようになるだろう。

最後に、形質変化が起こることがわかっている突然変異のうち、細胞内局在を変化させる変異を予測する可能性も調べ、ProGPS 多次元ベクトル空間内での距離から、局在の変化が予測できることも示している。

以上が結果で、まだまだ入り口とはいえ言語モデルの新しい可能性を感じさせる論文だ。何よりも計算機からパソコンへの移行が間違いなく起こることを予感させる。そして、この変化を主導するのは生命科学だといえる。

カテゴリ:論文ウォッチ
2025年3月
« 2月  
 12
3456789
10111213141516
17181920212223
24252627282930
31