今日は私の75回目の誕生日で、また公職を退いて始めたAASJも10年を経過したことになる。長い一生のうちの1日とはいえ、AASJ-論文ウォッチでは、誕生日にはできるだけインパクトの高い論文を紹介して、毎日論文と出会う興奮を伝えたいと努力してきた。その意味で、今日紹介するハーバード大学からの論文は、誕生日に紹介するにふさわしい新しい時代を感じさせる論文だ。タイトルは「Transfer learning enables predictions in network biology(転移学習はネットワーク生物学での予測を可能にする)」だ。
年齢を重ねても、人間は毎日変化していくが、昨年の誕生日の私と今日の私で最も大きな変化は、ChatGPTに代表される生成AIの様々なインパクトを実感している点だろう。そんな時に、ChatGPTで使われているTransformer/attentionと呼ばれる方法を用いて、細胞内での遺伝子ネットワークを学習させ、それを用いて、ウェットの実験を必要としない新しいレベルで遺伝子と細胞形質の関係を理解できるようにしようとしたこの論文が今週発表された。
数理生物学では、計算により複雑な生物の反応を予測することを目的としている。例えば阪大の近藤さんがチューリング波の形成をベースに、魚の縞模様を予測した論文はその例で、当時私も京大にいたのでよく覚えている。これに対し、生成AIでは、意味を作り出すネットワークがあれば、自ずとネットワーク構成要素の関係からそのネットワークを表象できると考え、例えば文章のような要素の並びを学習する中で、要素間の関係をembeddingと呼ばれる多次元空間内に位置づけている。これができるようになったのは、Googleにより開発されたtransformer/attentionというアルゴリズムで文章という意味のネットワークを個々の単語の次元空間の位置として表象できるようになったおかげだ。ChatGPTでは1700億のニューラルネットワーク上に、1万を超す次元として単語を位置付け (embedding)ている。
しかしtransformer/attentionの成功はこれにとどまらない。生物学分野で最も成功したのがアミノ酸の並びからそれぞれの原子の位置に変換し、タンパク質の立体構造を予測するαフォールドだろう。
さて本題に戻ろう。この研究では我々の細胞が遺伝子ネットワークで決まっているという生物的概念を、Single cell RNA sequencingで発現している遺伝子のネットワークとして提示し、それを学習させる事で、遺伝子だけでなく細胞という単位のコンテクストを表現できると着想した。
Transformerではembeddingするトークンが必要だが、この場合トークンは一つ一つの遺伝子になる。まず完全に正常細胞である事が確認されているsingle cell RNA seqライブラリーでの個々の遺伝子発現を、発現量の順位による遺伝子の並びとして表現し、各細胞でそれぞれの遺伝子がどの順位に来ているかを自然学習させることで、遺伝子同士の関係が次元空間内の距離として表現できるようにしている。ネットワークにこだわらず、文章のような遺伝子の並びに置き換えた単純な割り切りが、この研究の成功をもたらせたと思う。
まず現在まで蓄積された3000万個の人間のsingle cellライブラリーを学習させているが、各遺伝子は250次元のベクトルとしてembeddingされている。また遺伝子とネットワークのコンテクストとの関係を計算するため6種類のtransformer ユニットを用いている(詳細は気にせず読み飛ばしてほしい)。大きな数に見えるが、これを ChatGPTと比べると、1万次元対250次元、125transformer ユニット対6ユニットと、十分パソコンで調べられるレベルだ。したがって、コンピュータ上で各遺伝子のベクトルを操作して、ネットワーク全体に何が起こるか調べることもできるが、転移学習と呼ばれる一部を切り出して、ネットワークに何が起こっているのか調べる事ができるため、何百もの細胞系譜が集まった人間の細胞分化や異常を再現するには、もってこいだ。また、それを例えば病気の人からの新しいデータセットと較べたりもできる。
この研究のハイライトは、細胞の遺伝子ネットワークを各遺伝子の関係性として表象したAI(=Geneformer: transformerをかけて名付けている)ができたという点で、あとはこのAIを用いて何が可能か様々な例で示している。
もちろん遺伝子ネットワークから細胞の種類を特定できるので、例えばネットワークを細胞の種類に落とし込むと、お馴染みのsingle cell クラスターパターンを得る事ができる。この中から線維芽細胞集団を分けて取り出し、そこに山中因子をコンピューター上で加えると、期待通りiPSのネットワークコンテクストが浮き上がる。
このように、様々な分化系路を取り出し、そこで遺伝子発現を変化させる操作をすると、コンピュータ上で細胞形質の異常を誘導できる。また、分化のどの段階で変化が大きくなるかも予測できる。
また、遺伝子間の関係を示すのはお手のもので、いわゆる分化のマスター遺伝子と他の遺伝子との関係を確認できるし、それぞれのステージでの遺伝子の重要性を予測する事ができる。このグループは、ES細胞から真菌細胞への分化を研究してきたグループで、心筋や血管内皮分化過程での予測と、実際の病気でのデータセットとの比較を詳細に行い、Geneformerの驚くべき実力を示している。
もちろん様々なシミュレーション実験が行われており、紹介したい結果はまだまだあるが、今月14日にChatGPTについてジャーナルクラブを行う時に、この研究ももう少し詳しく説明するので(https://aasj.jp/news/seminar/22204)、そちらに参加してほしい。
以上、コンピュータシミュレーションとして、ノックアウトや遺伝子改変の結果を予測できるAIが誕生したということで、後期高齢者の心臓が止まるほどの変化が起きていることを今感じている。これからも頭が働く限り、この興奮を一人でも多くの若者に伝えて励ませたらと、75歳の誕生日に思いを新たにした。