今日紹介するサンガー研究所を中心とする国際チームからの論文はこの典型例で、560例の乳がんの全ゲノム解析から乳がん発生過程を類型化して調べた研究だ。タイトルは「Landscape of somatic mutations in 560 breast cancer whole-genome sequences (560例の乳がんの全ゲノム配列から見えてくる突然変異の全体像)」だ。
原理的に突然変異がゲノムのあらゆる場所で起こり、また遺伝子発現を調節しているのはエクソン以外の場所であることはわかっていても、エクソーム解析より50倍以上多い遺伝子配列データを、560人分も処理することがいかに大変かはよく理解できる。実際、確実な塩基の変異はトータルで約350万箇所発見されている。平均すると一人8000箇所の小さな変異があり、挿入や欠失、再構成も1000カ所近く存在している。この中から、発がんに関わる変異や、逆にガン化することで起こった変異をどう特定するのか?簡単ではない。560人という多くのガンを調べたおかげで、新しい遺伝子を含む93種類の発ガンのドライバーとなった変異を特定しているが、ガンと結びつけて明確に理解できるのはここまでで、これ以外はゲノム解析に基づく乳がんの分類の仕事と位置付けられる。実際、ガンに関係するかどうかの判断は、同じ変異が繰り返しガンで出現するかどうかが主要な判断基準にならざるをえない。この研究でも期待どおり幾つかの遺伝子のプロモーター領域に変異が繰り返していることを特定している。しかし、遺伝子発現に明確な影響が認められておらず、機能的な意味は不明なままだ。生きた細胞を用いた詳細な研究が必要だろう。
研究では変異の起こり方(分裂時、転写、損傷 etc)、変異箇所の特徴などから、ガンの変異のでき方に一定の法則を導き出すことができている。これに基づき、例えば乳ガンの遺伝子として知られるBRCA1/2の変異があればどのタイプに入るかを予測できることなどを示している。
残念ながらこの論文では、議論は完全にゲノム変異からだけわかることに終始して、病気の経過であるとか、組織型などとの相関は全く調べられていない。この意味で、全ゲノムを読んでデータベースができたという段階だろう。
今後は、このゲノムデータをもとに他の情報との統合が進むだろうと予想できるが、これには丹念な個別研究が必要だ。今政府も企業もビッグデータの重要性を強調しているが、データに自分で語らせるためには、変化の意味についての膨大な個別データが必要な気がする。
カテゴリ:論文ウォッチ