タイトルからわかるように、例えば犯罪者のDNA解析があれば、これをDNAデータベースと照合して、本人は登録していなくとも、遠い血縁者がデータベースの中に見つかれば、DNAの持ち主までたどり着けることを理論的に示した研究だ。ただ、この論文が発表されるより前に、カリフォルニア警察はこの可能性を試して犯人を逮捕したという事実が存在し、この研究はこれが理論的に正しいことを証明した追試研究に当たると言えるだろう。
カリフォルニア警察が解決した事件は、Goldenstate Killerと呼ばれる40年近く未解決の連続強姦殺人事件だ。犯人の残した体液のDNAデータが存在しており、ひょっとして犯人にたどり着けるのではないかとこのデータをCEDmatchと呼ばれる、ゲノムから親族を割り出してくれるサービスサイトにアップロードしたところ、もちろん犯人自身にはヒットしなかったが、犯人と3親等の親戚を特定、この親族から犯人を割り出したという、映画にしても良さそうなドラマだ。この論文を読むまで、この事件とその解決については全く知らなかったが、ゲノム解析サービスからこの検索を警察が着想したという先進性とともに、アメリカで民間ゲノムサービスがここまで浸透しているのかと感心した。それにしても、規制やプライバシーと入り口でウロウロしている我が国は、ゲノムに関してはまず20年は遅れているようだ。
このような捜査が一般的になりうるかどうかを、CEDmatchと同じようなサービスを提供しているMyHeritageのデータを使って検証したのがこの論文だ。MyHeritageには様々なゲノム解析サービスを受けた130万人が自分のデータをアップロードしている。この中から親族を見つけるためには、組み替えが起こらずに長い共通領域が存在するかどうかを調べるIdentify by descent(IBD)という方法が使われる。この研究では、まずどの程度のゲノムデータが蓄積されれば、データベースにある個人データから3親等までの親戚をたどれる確率を調べ、現段階のMyHeritageでも白人の75%、そして300万の白人が登録すれば、99%のアメリカ白人が、データベースに登録されている個人から3親等以内にカバーされてしまうことを示している。
次はDNAから犯人の親族を割出した後のプロファイルングについて検討し、犯行現場から100マイル以内に住んでおり、性別(これはゲノムからわかる)、年齢がわかると、年齢推定が10歳の誤差があるとした時16−17人、年齢誤差が1歳以内におさまる場合は、なんと1−2人に対象者を絞れることを示している。
最後に、現在のMyHeritageの能力を示すため、1000人ゲノム計画でゲノムを提供したユタ州の女性の親族を見つける検索を行い、ノースダコタとワイオミングの登録者の中から2人の親族を見つけ出し、その人達の共通の親まで追跡できることを示している。すごいパワーだと思う。
この成功を見れば、日本の警察も期待するのではないだろうか。我が国ではゲノム解析データは全部で100万には満たないかもしれない。しかし、今後着実に上昇する。さらに、日本人のゲノム構造は比較的均一であるため、追跡は容易だろう。ただ、すでにアメリカで議論になっているように、警察が民間データベースを使っていいのかという問題は常に残る。しかし、それはサービス会社が、警察にも開示することがあることを明確にしておけばいい。一番懸念されるのは、データを勝手に書き換えることだ。21世紀は、「どうプライバシーを守るのか」より先に「私たちは何を隠したいのか?」を問う時代が来ると思う。オープンにした方が社会に貢献することは無限にある。ただ、これを守るためには、権力がデータを書き換えないという保証が必要だ。
その意味で、森友・加計問題でわかったように、政府が平気でデータの改ざん、捏造を行い、それを深刻に考えない政治家の多い我が国では、ゲノムサービスも当分は警察に使わせるわけにはいかないだろう。
カテゴリ:論文ウォッチ