10月29日 コホート研究データを学習した生成AIモデル(10月27日 Nature Medicine オンライン掲載論文)
AASJホームページ > 2025年 > 10月 > 29日

10月29日 コホート研究データを学習した生成AIモデル(10月27日 Nature Medicine オンライン掲載論文)

2025年10月29日
SNSシェア

毎日論文を読んでいるだけで、中国の医学研究の急速な進展を実感する。特に最近10年の躍進は著しい。おそらくAI領域ではもっと突出しているのではないだろうか。Nature Machine Intelligence の半数近くの論文は中国からで、確かに transformer のような基本モデルを開発するという点では google等に遅れているとは言え、多くのアイデアが試されているエネルギーを感じる。

今日紹介する中国温州大学からの論文は大規模コホート研究データを学習させ、生物学的老化や年齢に伴う疾患リスクを個人のデータから予測できるモデルを構築した研究で、様々な点で中国医学の躍進が感じられる論文だった。タイトルは「A full life cycle biological clock based on routine clinical data and its impact in health and diseases(通常の臨床指標に基づく全生涯をカバーする生物時計は健康や病気の指標になる)」だ。

私が現役の頃、中国での基本医療保険は整備できていないといわれていた。実際、2000年初頭では保険カバー率が10%台だったようだが、現在では95%が何らかの保険でカバーされている (WHO報告書)。これを見ても中国医学の躍進がよくわかるが、今日の論文では様々な年齢層を対象としたコホート研究が走っており、この研究では4つのコホートを集めてなんと1千万人近くについて、180種類の血液検査を中心としたデータを経時的に集めている。データ総数は2500万近くに及び、それが全て電子レコード化された形で研究者に利用できることが素晴らしい。我が国の実情は知らないが、資格のある研究者が利用できる個人健康電子レコードはどの程度整備できているのか気になる。

データ量が多いのでどのぐらい大変かはほとんど評価できないが、この研究では各個人が検査に訪れた Visit ごとに、それぞれの検査の値と種類を一回の visit 毎に埋め込みとしてまとめ、これを transformer に学習させている。もちろん欠けている検査やコホートごとの検査値の平準化などの問題は、いわゆるマスク学習などを用いて自然に欠損値を予想して処理するようにしている。ただ、一回の visit でのサマリーを算出して埋め込むなど多くの工夫が行われており、これを1千万近くの個人のデータで行って学習させること自体大変な作業だと思う。

このような各個人の時系列トークンが分布した潜在空間には、各人の実年齢とともに異なる健康状態が表象されていることになり、これを統合した生物学的年齢を算出することができる。

こうして算出した生物学的年齢を実年齢ごとにプロットすると2つのことがわかる。20歳までと20歳以降で実年齢と生物年齢の比率が全く異なる点で、それぞれ別にプロットする必要がある。別々にプロットすると、基本的には実年齢と生物学的年齢はほぼ正比例しているが、それぞれの実年齢の中で生物年齢のばらつきは大きく、これを老化度として示すことができる。全く異なる病院や機関でのコホートでも同じモデルで処理できることは重要だ。

ただ、こうして算定される生物年齢が意味を持つかどうかはわからない。そこで、生物年齢が実年齢をオーバーした集団と実年齢より若い集団で、心血管障害や低血糖症などは生物年齢が高いほどリスクが高いことがわかる。

さらに各検査項目の指標をベースに参加者を64種類のポピュレーションに分けると、様々な疾患と各クラスターとの相関が見えてくる。これは20歳以下と、20歳以上で分けて調べる必要があるが、子供に関して言うと、ヘルニアや髄膜炎、更には早発思春期などのリスクと相関する。一方20歳以上の参加者では、クラスター20に属する人の心血管生涯リスクは30倍にも上ることがわかる。Transformer なので、これまでの時系列を入れると、将来の疾患リスクを計算することもでき、様々な疾患について40歳から70歳までに発症する率を計算している。

以上が結果で、同じような時系列健康データのAI化の試みは既に行われているが、Transformer/attentionを用いたのはこれが初めてのようで、実際これだけのデータを学習させること自体が大変な作業だと思う。

11月5日、第三回のAIx生物勉強会を予定しており、今回はGoogleのこれまでの戦略を医学生物学領域で振り返ることを主題にしている。調べていると、Googleのパワーに圧倒され、攻め手など見つからないように思うが、これまでのGoogleモデルは実際の患者さんのデータが取り込まれているわけではない。その意味で、この温州大学からの論文は参考にできる点が多い。

カテゴリ:論文ウォッチ
2025年10月
« 9月  
 12345
6789101112
13141516171819
20212223242526
2728293031