9月17日 ヘルスデータを様々な用途に利用するためのテクノロジーの開発(9月12日 Nature Medicine オンライン掲載論文他)
AASJホームページ > 2024年 > 9月 > 17日

9月17日 ヘルスデータを様々な用途に利用するためのテクノロジーの開発(9月12日 Nature Medicine オンライン掲載論文他)

2024年9月17日
SNSシェア

東京オリンピックのレガシーの一環としてアスリートのゲノム解析を目指したプロジェクトが中止されたという。2017年度から始まったプロジェクトらしいが、後からアスリート選別や差別につながるという懸念が出て中止したようだ。一見、人権擁護からも当然のように見えるが、私には日本政府の研究補助に潜むあらゆる問題が表面化しているように見える。

元々遺伝学は違いを探す学問で、文字通り discriminate 、差別するための学問だ。ただ、社会的な意味で差別するのは、違いを受け取る社会の方で、ゲノム研究のためには、最初から個人のセキュリティーを守る仕組みを考えておく必要がある。多くのサンプルを採取するのに膨大なお金を使った後、差別はダメと研究を中止するとしたら、最初から計画がゲノムを調べるようにできていなかったことになり、計画立案者はもとより、それを審査した専門家、予算をつけた役人の全ては何らかの処分を受ける必要がある。要するに、杜撰なプロジェクトを、東京五輪というバブルに乗せて始めたことが問題だ。

これに限らず、日本では個人データの典型である医療データを統一的に構築し、将来の医療に役立てるための取り組みが、大きく遅れをとっているように思う。しかし、今政府が追いつこうと莫大なお金を投与している大規模言語モデル LLM を考えると、DNAを情報集約ポイントとする LLM と、自然言語を情報集約とする LLM が統合される重要な分野で、その意味で日本人の健康データがまだまだ統合的に使えないということは、LLM の本当の進展を妨げると思う。

今日紹介する米国コロンビア大学から、そしてドイツ・ミュンヘンのヘルムホルツ研究所から発表された2篇の論文は、現状の電子化された健康レコード (EHR) を、疫学や病因解析に使えるようにストックするための方法開発論文で、どちらも Nature Medicine に掲載された。

どちらもオープンアクセスなのでぜひ自分で読んで欲しい。

最初のコロンビア大学からの論文は、アスリートゲノムでも問題になった究極の個人情報ゲノムをどのように他の EHR と統合し、しかもセキュリティーを守れるプラットフォームについての研究で、いわゆるブロックチエーン技術を EHR とゲノムデータ管理に使っている。

ブロックチェーンはビットコインなどの仮想通貨に使われており、分散型ネットワーク、暗号化技術、そして新しいブロック追加や、ネットワークへのアクセスのすべてが記録されることで、誰が参加したかを明らかにしてセキュリティーを守る方法だ。

プラットフォームの詳細については全く理解していないが、このプラットフォームを ALS のデータセットと組み合わせて、重要な遺伝子の SNP を発見できることを示している。

ブロックチエーンは管理者ですら自由に変更を許さない分散型のネットワークで、レガシープロジェクトも中止するのではなく、このようなブロックチェーン型のデータ管理を導入する機会にしてほしい。

次のミュンヘン・ヘルムホルツセンターからの論文は、検査項目が完全には統一されていない現状の EHR からデータを集めて統一したプラットフォームを作り、それぞれの患者さんを異なる時点で把握した上で、特定のポピュレーションを抜き出して解析できるプラットフォームを確立している。わかりやすく言うと、single cell RNA sequencing データをもとに、個々の細胞の特徴を多次元空間にマップする解析方法と似たプラットフォームの構築だ。

ただ、single cell RNA sequencing と比べると EHR の形式が統一されていないなどの問題は大きく、様々なマルチモーダル EHR を整理し直して、それを一つの多次元情報を持ったベクトルとして管理する方法だ。

これにより、例えば子供の肺炎を、さらに詳しく分類したり、コロナ患者さんの肺病変と予後を予測したり、データに含まれているコンテクストを解析することができる。また、データコーディングについてさらに検討を加えれば、トークン化して LLM モデルも構築できる。要するに、最初から全部のデータを集めるというコホートではなく、実際の臨床記録を使えるようにするプラットフォームの解析で、重要な貢献だと思う。

このように、Nature Medicine には多くの臨床データ管理の研究が発表されるようになってきたが、日本のプレゼンスはほとんどないように思う。その一つの原因は、医学データのしまい方にもあるので、若者が自由にしかしセキュリティーを守ってデータを使って、新しいプラットフォームが作れるようにすることが、役所の重要な仕事だと思う。

カテゴリ:論文ウォッチ