しかしゲノム研究が進んで、この家系図の重要性が一段と増している。すなわち、家族関係がわかっているとゲノムデータの情報処理が格段に容易かつ正確になる。従って、病気や形質に対する遺伝と環境の影響を調べる多くの研究では、家族関係がわかっているデータセットを使うことが多い。例えば同じゲノムデータでも、韓国のように家系図が明らかになっている場合では、データとしての価値が格段に上がる。
前置きが長くなったが、今日紹介するニューヨークゲノムセンターからの論文を読んで、個人の自己申告による家系を集めて世界規模の人間のつながりをしらべ、登録した人たちのルーツや親戚を探してくれるGeniという会社があることを知った(https://www.geni.com/corp/)。すでに一億におよぶ家系に関するプロファイルが集まっており、そのうち半分近くは他のプロフィルと結合している。言ってみれば世界の人類のつながりが把握されだしていることになる。この論文では、こうして集められたデータの問題を解決して信頼度を上げたデータセットを抽出し、それを様々な科学的、社会的用途に使えることを示した論文で4月3日号の Scienceに掲載された。タイトルは「Quantitative analysis of population scale family trees with millions of relatives(何百万人もの親戚が集まっている集団スケールの系統図を定量的に解析する)」だ。
自己申告をもとに民間が集めているデータなど不正確で役に立たないと言ってしまえば簡単だが、このグループはこのようなデータに問題はあっても、ソフトを改良し正確なデータに近づけることが可能で、さらにサンプルを抽出してゲノムデータを集めることで、信頼度を検証できると考え、会社と交渉しさらに信頼度の高いデータセットに仕上げている。その上で、ミトコンドリアとY染色体のプロフィルを211系統について調べさせてもらい、母親の記述についての間違いは0.3%、父親でも1.9%にとどまることを確認している。すなわち、アカデミアが入ることでGeniの信頼度が上がったことになる。この結果、登録した人たちの信頼の置ける膨大な関係図が出来上がり、これは何世紀にもわたるデータをカバーすることができるようになった。
次にこのデータがいかに有効かを調べるために、死亡統計についてついて調べ、アメリカで例えば南北戦争、第一次、および第二次世界大戦で若者の死亡率が選択的に上昇していることがデータとして示せること、あるいは人間の死に場所についての世界地図が書けることを示している。
さらに、寿命についての遺伝的影響が、これまで言われていたよりあまり強くないこと、またどれほど広い範囲から結婚相手が選ばれるのか、それに伴い男女のどちらが移動しているのか、子供と親の生活圏の距離についても長期間にわたって(なんと17世紀から)計算できることを示している。
それぞれのデータはもちろん面白く、このデータが今後医学や、社会学、教育学に大きな役割を演じることを予感する。しかし、習うべき最も重要な点は、家族の系統樹というこれまで利用がタブー視され、行政も公開しないデータを、ウェッブを使っていとも簡単に集められることに気づいたGeniやその他の家族系統を調べるベンチャー企業の創業者と、それと共同して科学的データを集められると考えたこの論文の著者らの発想の豊かさだろう。疫学調査や社会学調査というとアカデミアの統計重視主義は、21世紀のネット社会でいとも簡単に乗り越えられてしまうことがよくわかった論文だと感心した。
カテゴリ:論文ウォッチ