自閉症の遺伝性は高く、これまでも大規模なゲノム解析が行われ、様々な遺伝子が複雑に絡んだ一つの状態、すなわちneurodiversityの概念形成に大きく寄与してきた。ただ、発症には他にも両親には見られないが子供だけに存在するde novo変異の関与が示唆されている。このde nove変異の特定には、両親、本人、そしてASDを発症しなかった兄弟姉妹の遺伝子を比べることが必要になるが、これまで何度か紹介したシモン財団では、このような組み合わせをなんと1700家族について集めており、そのゲノムが公開されている。このセットを用いてこれまでも、ASD発症に関わるタンパク質へと翻訳される遺伝子(エクソーム)変異が認められて、データベースの重要性が示されていた。
しかし、エクソーム解析だけではこのデータベースは宝の持ち腐れで、実際には翻訳されない部位(イントロン)の変異も比較的容易に発見できる。ただ、イントロンの変異の場合、その変異の発症への寄与度を推定することは容易ではない。実際には、モデル細胞や動物を用いて、その場所の機能を調べていくしかないように思えた。
今日紹介するプリンストン大学からの論文はこの課題をこれまでのデータベースから集めた情報だけでやり遂げようとする研究で6月号のNature Geneticsに掲載された。タイトルは「Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk(全ゲノムレベルの深層学習によって自閉症リスクにつながるノンコーディング変異が特定できる)」だ。
この研究では、シモンズ財団のデータベースを用いると、細胞の機能変化につながると予想できるイントロンのde novo変異を13万近くリストできる。問題は、このうちどれがASDリスクとなる可能性があるかをどう調べるかだ。この研究ではENCODE プロジェクトで蓄積している様々な細胞のエピゲノムのプロファイル(クロマチンの状態、転写因子の結合、ヒストンマークなど)データを、深層学習させ、この中からイントロンの機能的寄与度を推定するAIを構築し、このAIがASDリスクについて、意味のある推定ができるか確かめている。ある意味では、この研究はイントロンの機能を推定するAI構築が目的で、そのテストにASDを用いていると言える。
まずASDを発症した子供と、発症しなかった兄弟、それぞれに見られるde novo変異をこのAIで解析して、ASDに限らず一般的細胞機能に寄与する変異の総数を調べると、明らかにASDを発症した子供の方が機能に関わる領域に変異が蓄積している。
次に、de novo変異がどの細胞に影響するかを調べると、ASD発症児のde novo変異は神経細胞での発現に関わる可能性が高く、またシナプス機能や発生に関わる機能に関わる変異が蓄積していることがわかる。また、新たに開発した他の分子との相互作用を推定する数理処理を用いると、ASDのde novo変異は、これまでASD発症に関わると考えられている遺伝子と関係している頻度が高いことを明らかにしている。
最後に、イン・シリコの実験だけでなく、解析からASDと関係すると推定される59のイントロンの変異について、神経細胞での転写活性を調べると、なんと96%が遺伝子発現の変化につながっていることがはっきりした、
機械学習の力をまた思い知る論文だが、解析だけではなく、どうすれば対処できるのかを支持できるAI を開発して欲しいと思った。
いよいよイントロン(ジャンクDNA)の正体に迫れる時代が到来?
⇒万能プログラミング言語としてDNを解釈する、人間ソウトウエア論時代の夜明けでしょうか?
一般書ですが近々出版されるようです:
「情報」で生命の謎を解く(生命の秘密を解きあかす新しい科学への旅)ポール・デイヴィーズ 水谷淳/訳