10月15日 収穫期に入った英国バイオバンク I 、構築と維持(10月11日号Nature 掲載論文)
AASJホームページ > 2018年 > 10月 > 15日

10月15日 収穫期に入った英国バイオバンク I 、構築と維持(10月11日号Nature 掲載論文)

2018年10月15日
SNSシェア
先週号のNatureにUKバイオバンクと銘打った論文が2編発表されていたので、今日と明日で紹介する。完全にオープンアクセスになっているので、実際の論文に是非アクセスしながら読んで欲しいと思う。

最初はオックスフォード大学が中心になっているが、様々な国が参加してまとめた論文でUKバイオバンクとは何かについて詳しく書いている。タイトルは「The UK Biobank resource with deep phenotyping and genomic data(詳し形質解析とゲノムデータが集まったUKバイオバンク)」だ。

21世紀人間学の最大のテーマは、個々の人間の情報をゲノム情報と統合して、個人や社会を理解することだが、そのためには100万人規模のデータベースを構築する必要がある。これに国をあげて早くから取り組んできたのがUKバイオバンクで、現在50万人規模のデータベースとしてすでに多くの研究者が利用しており、UK biobankでPubMedを検索するとすでに1074編の論文が出版されている。

この論文はこのバンクの設立や維持に関する、科学的苦労話といった感じの論文で、読むとUKバイオバンクの成功の秘密と将来性がよくわかるように書かれている。

この分野、特にゲノム分野は進展が著しいが、その様な進展は後からいくらでも付け足せると考えて、まずゲノムと身体サンプル、データを集める事に集中している。実際最初から完全を求めると、結局失敗する。このため、全ゲノム配列決定は無視して、病気を中心にさまざまな遺伝子マーカーを集めたUK Biobank Axiom Arrayで、一塩基多型や、欠損挿入データを集めている。これに、血液、唾液、尿を採取してリアルなサンプルとして連結するとともに、身体データ、家族データ、社会データなどまで集めて連結させている。こうして生まれたコアには、あとからデータを足せるし、また1年ごとにフォローアップを行い、すでに14000人が死亡、79000人がガンと診断され、約40万人がなんらかの病気で病院のお世話になっている。

問題はこのようにして集めたデータの精度をどう確かめるかだ。たとえば自己申告の性別とゲノムを対応させることで、データのとり間違いを含む様々な人為的ミスとともに、当然染色体と性が一致しない、性決定障害がみつかる。こんなノウハウがしっかり語られている。

もう一つ重要な点は、こうして出来たデータベースが、英国民の構成を反映し、現時点での英国の構図まで分かるようになっている点だ。さらに、意図しなくとも、50万人集めると、自然に親子親戚がその中に含まれ、遺伝検査のパワーが上がる。これに今後死亡統計や、病気の発生率などが加わって行くのだろう。研究者だけでなく、社会学や行政にも有用なデータへと発展することがわかる。

すでに40万の病気データが集まっていることから、もちろん病気のリスクについて新しい発見も生まれるだろう。その例として、病気との関わりが深いMHCと多発性硬化症との関連を調べ、これまで明らかになっているHLAとの連関を確認している。

他にも様々なことが述べられているが、この論文はバイオバンクを構築し、データの質を高め、発展可能なデータベースを維持するためのマニュアルと考えればいい。従って、これ以上の詳細は割愛するが、常にクオリティーコントロールを怠らず、そのためのアプリケーションをバージョンアップしていくことの重要性がわかる。すなわち、一旦始めたら、それを発展させるために、より大きなコストを払う覚悟がいるということだ。一方、明日紹介する論文では、このデータベースの一種の使い方を示しており、ぜひ続けて読んで欲しい。

ただ、これだけではあまりにそっけないので、この論文でも取り上げられている身長とゲノムについてUKバイオバンクを使った最近Genetics10月号にミシガン大学のグループが発表した論文を紹介したい。タイトルは「Accurate Genomic Prediction of Human Height(Accurate genomic prediction of human height (ゲノムによる身長の正確な予測))だ。

まずこの論文には英国の研究者は参加しておらず、アメリカ、デンマーク、中国の研究者による論文だ。すなわち、UKバイオバンクがどの国にも開かれていることを示している。

これまでSNPと身長というと、身長と相関するSNPをリストすることが中心になってしまっていたが、この論文では、50万人のデータを用いて、ゲノムから身長を予測することができるかを調べている。実際にはLASSOと呼ばれるアルゴリズムを用いて45万人分のSNPデータを学習させ、こうして教育したAIにゲノムから身長を予測させる実験を行い、だいたい10cmの広がりはあるが、150cmから190cmまで、かなり正確に身長を予測することが可能になったことを示している。

このように、50万人という数は、定量的予測を行えるAIの開発を可能にし始めている。我が国のゲノム研究は、UKバイオバンクと比べて、どの辺にあるのか、ぜひ報告書ではなく、外野の人間でも目にできるような論文として発表していって欲しい。
カテゴリ:論文ウォッチ