2025年1月23日
DNAシークエンサーの発展とともに発展した領域の一つは腸内細菌叢の研究で、最初はリボゾームなど一部の配列のみを使って調べられていた細菌叢も、今や全ゲノムレベルで配列を決め、さらにはほぼ完全なゲノムを再構成して、腸内で起こっている変化を捉えることが可能になっている。
これに対し、今日紹介するイスラエルワイズマン研究所からの論文は、質量分析器を用いるペプチド解析の結果を腸内のゲノム解析と対応させて解釈し直した後、特定されたタンパク質の種類をベースに腸内の変化の把握を目指した研究で、1月20日 Cell にオンライン掲載された。タイトルは「Metagenome-informed metaproteomics of the human gut microbiome, host, and dietary exposome uncovers signatures of health and inflammatory bowel disease(メタゲノム情報を用いたメタタンパク質解析を用いて、健康あるいは炎症性腸疾患のホスト、細菌叢、そして食事由来タンパク質を網羅的に解析する)」だ。
網羅的タンパク質解析(プロテオーム)の技術が進んでも、あまり腸内細菌叢の解析に用いられなかったのは、タンパク質の分解が把握しきれないことと得られたプロテオームデータの由来を特定することが難しかったことによる。
この問題を、腸内の内容物あるいは便のDNA解析とプロテオーム解析を統合した Metagenome-informed metaproteomics (MIM) を行うことで、存在するタンパク質を由来も含めて徹底的に解析し、メタゲノムに変わる指標を確立しようとしたのがこの研究だ。要するに、解析は一手間も二手間も多いが、タンパク質を用いることで、ホスト由来タンパク質、細菌由来タンパク質、そして食事に含まれるタンパク質まで特定することでゲノムとは異なる現象を把握できると、大変な実験を行っている。
まず、存在する細菌叢や、ホストの反応、そして食べた食物を MIM で正確に把握できるか、マウスやヒトを用いて徹底的に検証している。細菌叢は、メタゲノム情報が存在することで、ほぼ正確にタンパク質の由来を調べることができる。もちろん、種類が限られるホスト側のタンパク質は問題なく特定できる。また、食べ物については動植物のデータベースから特定することができる。この結果、マウスでは2656種類のバクテリア由来タンパク質、631種類のホスト由来タンパク質、そして23種類の食物由来タンパク質を特定できる。
プロテオームを用いると、胃から十二指腸、そして小腸を経て大腸へと、検出できるタンパク質の多様性が拡大していくことが見事にわかるが、便になってしまうと、タンパク質での多様性の検討は難しくなる。とはいえ、何を食べたかなどは便のプロテオーム解析からかなり正確に特定できる。
では、ここまで手間をかけて、従来のゲノム解析以上に何が明らかになったのか?
例えば腸炎が起こった場合、食べ物のタンパク質の量が消化不良を反映するだけでなく、炎症がどのレベルにあるかも食べ物の消化の程度を調べられるのでわかる。また、詳細は省くが、ゲノム=すなわち細菌の種類だけではわからない、細菌の活動状況の変化を捉えることができる。例えば、炎症が始まると、バクテリアも環境変化に対応するが、これを特定することができる。
さらに、ホストの反応を同時に調べることで細菌叢の変化との相互作用のメカニズムまで知ることができる。例えば抗菌ペプチドの変化と細菌叢の変化は相関する。また、メタゲノムと参照しながらプロテオームを行ったおかげで、新しい抗菌ペプチドを特定することができている。
この研究から生まれた重要な発見の一つは、炎症性の変化に伴う腸上皮の変化を把握できることで重要なマーカーをいくつか特定していることだ。他にも、ELISAで検出できる腸炎マーカーの発見も報告されている。
これまで困難とされてきたプロテオームにチャレンジすることで、細菌叢研究の新しい領域が生まれたように思う。
2025年1月22日
哺乳動物の2本あるX染色体からの転写は、片方だけに起こる X染色体不活化という現象で、量の調節が行われている。これは X染色体で転写される Xist と呼ばれる RNA が、染色体全体に広がってクロマチンの構造変化の核になり、染色体を閉じてしまうからだ。一方で、もう片方では Tsix と呼ばれる Xistアンチセンスによって Xist転写を抑えてクロマチンをオープンに保っている。
こう説明されるとわかった気になるのだが、しかしうまい具合に Xist が片方の染色体だけに広がって行くのか考えてみると、この説明だけでは本当は理解できていないことを思い知る。この点について GPT-4 に聞いても、満足いく答えは得られない。
今日紹介する中国精華大学とハーバード大学からの共同論文は、Xist が結合する HNRNPK分子が相分離の物性の調節を通してこの謎のチャレンジした面白い論文で、1月16日 Cell にオンライン掲載された。タイトルは「A biophysical basis for the spreading behavior and limited diffusion of Xist(Xistが片方の染色体に広がり他に拡散しない生物物理的基盤)」だ。
この研究はもともと相分離して核内に散在する HNRNPK分子が Xist と結合することで物性が変化することが、Xist の染色体全体への移動とともに他の染色体への拡散を抑制するのではと着想し、主に相分離体の物性を調べる極めてエレガントな方法を駆使して、この可能性を証明している。その上で、相分離に必要な部位が欠損した HNRNPK分子を持つ ES細胞を用いて、この過程が実際の X染色体不活化過程で起こっていることを証明している。ただ、実験が極めてプロフェッショナルなので、全て割愛して最終的に見えてきた染色体不活化過程について以下に説明する。
HNRNPK が欠損すると不活化が行われないことは知られているが、HNRNPK自身は相分離体を作り、核内全体に散らばっている。従って HNRNPK相分離だけでは染色体選択制は説明できない。
HNRNPK は Xist の repeatB (RepB) 部分と結合する。従って、Xist の転写が始まった方の染色体では Xist が HNRNPK相分離体に侵入する。
この反応により、それまで比較的剛性が高い HNRNPK相分離体が柔らかく広がりやすくなる。また、Xist と HNRNPK はそれぞれで引っ張り合う力があり、この相互作用が柔らかくなった HNRNPK相分離体を、染色体にできている隙間を通って全体に広げる。
Xist は、ポリコム分子など閉鎖型染色体を形成する様々な分子溶け都合するが、このとき相分離体はこれら分子を統合するトラップの役割を果たす。
また、この過程で核内で形成されていた染色体の立体構造も変化し、不活化される染色体各部位が混じり合って染色体をコンパクトな塊に仕上げる。
以上がシナリオで、よくまあここまでうまくできているなと言う印象だ。しかし、これだけの複雑な相互作用が突然できてきたわけではないので、哺乳動物進化での X染色体不活化のメカニズムのルーツを探る研究はこれからも続いていくと思う。
相分離は外界からシステムを独立させてくれるし、分裂することも可能な存在で、その理解は分子進化とともに、おそらく太古の昔 RNAワールドを理解する鍵になると想像している。その意味で、この研究は示唆に富む。
2025年1月21日
腫瘍細胞に選択的に感染して細胞死を誘導できる腫瘍溶解ウイルスは、100%の感染率到達が難しいことやホスト側の免疫反応でウイルスが抑えられることから、アイデアはいいのだが根治には繋がらないとして一時廃れていた。しかし、ガンに対する免疫のパワーが認識されるようになった今、一部の腫瘍を溶解して免疫を誘導し残りを抑えるという戦略が示され、再評価されるようになっている。
今日紹介する中国広西医科大学を中心とする研究施設からの論文は、鳥類には致死的なのに人間には殆どかからないニューカッスル病ウイルス (NDV) を用いて、末期のガンの進行が抑えられることを示した研究で、中国臨床研究のダイナミックな力を感じさせた。タイトルは「Hyperacute rejection-engineered oncolytic virus for interventional clinical trial in refractory cancer patients(超急性拒絶をエンジニアした腫瘍溶解ウイルスを通常の治療に反応しないガン患者さんの治療に用いる)」で、1月17日 Cell にオンライン掲載された。
NDV は鳥に感染すると致死的なウイルス感染症だが、養鶏家で暴露しても症状は殆ど出ない。これは、NDV 感染に必要な αGal の発現に関わる酵素が欠損しているからだが、この酵素がなくてもガン細胞では糖鎖の発現が高まりさらにNDV増殖を抑えるインターフェロン応答が抑えられているため、NDV が増殖し腫瘍溶解することが発見された。ただ、これまでに行われた治験では、思ったような効果が得られていない。
この研究では NDV にヒトが失った α1,3GT 遺伝子を導入して、ガン細胞だけに αGal を発現させて持続的にウイルスにかかりやすくするだけでなく、αGal に対する私たちの自然抗体を利用してガン細胞を補体依存的に殺してしまえるのではと考えた。というのも、私たちは腸内細菌などを通して αGal に対する抗体を高いレベルで維持している。従って、腫瘍で増える NDV によりついでに αGal が発現すると、すぐに抗体と補体が作用して、短時間に腫瘍を溶解することが期待される。そして、これにより局所に血小板活性化因子が遊離され、塞栓症が起こり、局所の腫瘍の崩壊を高めるとともに炎症を通して最終的にホストのガン免疫を高めると期待される。すなわち、時間単位の反応からウイルスによる溶解、さらに組織の再編成、そして最後にホスト免疫という何十もの攻撃軸を構築できると考えた。
以上はもちろん絵に描いた餅だが、これを証明するため、なんとサルの肝臓細胞を CRISPR/Cas を用いた遺伝子ノックアウトでガン抑制遺伝子を壊し、ガンを発生させるモデルを作成し、これを GT 導入 NDV (NDV-DT) で治療できるか調べている。すなわち、人間に近いサルの肝臓ガンの治療実験を行うという、極めてストレートなアプローチだ。
結果は、サルに発生した肝臓ガンは NDV だけで一時は良くなるが必ず再発する。しかし、NDV-DT を投与すると、完全に治療できることがわかった。しかも期待通り、最初の溶解や血栓を含む組織反応から免疫細胞の増加まで期待通りのコースをたどる。ただ、ガン免疫については、抗原特異性まで調べていないが、ともかくガンが長期に抑えられているのでよしとしている。
その上で、様々な、治療が難しい末期ガンの患者さんに投与する治験へストレートに進んでいる。この治療は、ガン患者さんの静脈に NDV-DT を週1回3ヶ月にわたって投与するだけで、他の治療は行っていない。
結果だが、90%のヒトに一時的にもガンを抑える効果が見られている。また、40%近くはガンの縮小が見られ、残りは病気の進行を抑えることができている。最終的に半数は再発したが、3割以上の患者さんが2年以上生存しており、大きな効果が得られたと言える。
他にも完全にガンが消えた症例など、いくつかの臨床例が示されているが、要するに絵に描いたように結果が得られたと言える。
最初からサルのガンモデルを用いるなど、中国の臨床研究の力強さが感じられる研究だと思う。
2025年1月20日
初めてのアフリカ旅行で里美が足を骨折して手術を受けたので、やむなくヨハネスブルグに少し長めに滞在した。そのときせっかくの機会なのでどこか行くところはないかと考えたが、ヨハネスブルグは観光客には危険ということで浮かんできたのが、アウストラピテクスが最初に発見されたスタルクフォンテインだった。タクシーを借り切って、里美を車椅子に乗せて洞窟に着くと、さすが車椅子は無理ということで、里美にはドライバーさんとレストランに残ってもらって、私一人洞窟ツァーに参加した(写真はオルドワン型石器と洞窟入り口)。
そこで展示されていたオルドワン型の石器は、骨を割ったりするのに使われていたとされているが、今日紹介するドイツ・マインツにあるマックスプランク研究所からの論文は、歯のエナメルに残っている窒素から、アウストラピテクスは基本的に草食だったことを示した研究で、1月17日号 Science に掲載された。タイトルは「Australopithecus at Sterkfontein did not consume substantial mammalian meat(シュタークフォンテインのアウストラピテクスは哺乳類の肉を多く食べてはいなかった)」だ。
当時の動物が何を食べていたかは考古学的にも最も重要な課題で、アウストラピテクスは犬歯があり、オルドワン型石器を使っていたことから、肉食ではなかったかと個人的には思っていた。ただ、専門家の間では議論が行われていたが、現在肉食か草食かを区別するために使っている窒素同位元素を使う方法は、骨の中のコラーゲンが急速に消失するため難しかった。
この研究のハイライトは、開発が進んだ微量の N15 と N14 を区別する方法を、通常の骨コラーゲンの代わりに安定にマトリックスが残っている歯のエナメル質の有機物測定に使ったことで、これにより200万年以上前のアウストラピテクスの食べ物を調べることができるようになった。
シュタークフォンテーンでは今も発掘が進んでいたが、決して人類の化石だけではなく、同じ時代に生息していた多くの動物の化石も収集されている。これら動物の歯も同時に調べて、アウストラピテクスの N15 の割合は、草食動物と同じレンジで同じ時期に生息している肉食動物と比べると、遙かに低いことが明らかになった。
重要なのは、他の草食動物と比べると N15 の比率が極めて多様な点で、これは現存の類人猿と比べても大きい。従って、現在のチンパンジーのように、哺乳動物の肉を食べることもあったが、基本的には様々な植物の葉や実を食していたと考えられる。
この方法の信頼性は、乳歯のテストでも明らかになっている。早い段階では母乳で育つため、N15 の値が上昇すると予想されるが、出土した乳歯の一本は、殆ど肉食動物並みの値を取っており、信頼性を裏付けている。
さらに、炭素13を調べることでも草食動物と同じであることが確認されている。
もちろん他の地域ではどうなのかなど、これからの研究が必要だが、現在のチンパンジーが基本は草食でたまに狩りをして肉を食べているのに似ていると思う。ただ、動物性タンパク質を多くとることで脳の発達が促されたとされているが、実際にはどうだったのかなど知りたいことは多い。いずれにせよ、食べ物を知るためのパワフルな方法が出てきた。
2025年1月19日
ノーベル化学賞の講演を YouTube でゆっくり聞いたが、最初に登場した David Baker さんは、ペプチドデザインの前置きはさっと切り上げて、最も新しい RFdiffusion を使って何が可能かを様々な例を挙げて紹介していた。生み出されるタンパク質の広さと深さは圧倒的で、これからも論文が次々と生まれることを予感させる。これは未来の話ではなく現実の話で、実際講演の中で取り上げられていたTNF受容体の阻害ペプチドについては、講演が行われるより前 Science に発表されていたし(Science 386, 1154-1161, 2024)、またペプチドブロックを組み合わせたナノケージに関する Nature 論文は昨年暮れに紹介した(https://aasj.jp/news/watch/25825 )。
ノーベル賞講演で Baker さんが最初に紹介していたのがヘビ毒を中和するペプチド設計の話だったが、1月15日 Nature にオンライン掲載された。タイトルは「De novo designed proteins neutralize lethal snake venom toxins(新たにデザインしたタンパク質が致死的なヘビ毒を中和する)」だ。
これほど続々新しいタンパク質のデザインが発表されるのは、必要な全ての方法が Baker さんの研究室に揃っているからだ。タンパク質の設計は、まず標的分子の構造を知ることから始まる。現在は結晶構造が完全にわかっている分子が標的にされているが、当然 Rosetta や AlphaFold も将来は使っていける。
構造と機能から標的部位を決めると、次は Baker さんたちが2023年8月に Nature に発表した RFdiffusion と呼ぶ画像生成に使われるDiffusionをペプチドの設計に利用する方法の登場だ(Nature, 620, 1089, 2023)。Diffusion を用いたモデルは AlphaFold3 や最新版 Rosettaに も使われている(https://aasj.jp/news/watch/24442 )。
こうして構造が決まると、Bakere さんたちが2022年に Science に発表した構造からアミノ酸配列を抽出できる ProteinMPNN が登場して、アミノ酸、そして遺伝子配列が決まる。ただ、現段階では100点のデザインはまだできない。そのため、Rosetta や AlphaFold を用いて構造を至適化している。
この研究ではアセチルコリン受容体への作用を阻害するヘビ毒と、細胞膜を引きちぎるヘビ毒両方に対してペプチドを設計しているが、神経毒では44種類のペプチドに絞った後、実際に大腸菌でタンパク質を作り、ヘビ毒への結合を調べている。この結果出来てくる阻害ペプチドは842nMの結合係数なので、まだまだ結合力は弱い。
そこで、できてきたペプチドの一部だけをやはり RFdiffucion で至適化する方法で設計し直し、最終的に0.9nMという実用範囲のペプチドを作成している。こうしてできたペプチドとヘビ毒との相互作用は、結晶解析が行われて今後のデータとなっていく。この方法で、細胞膜を引きちぎるサイトトキシンに対しても、通常では考えられない部位を標的にするペプチドデザインに成功している。
最後は試験管内での実験を経て、マウスにヘビ毒を注射した後、15分後、30分後それぞれデザインペプチドで中和できるか実験を行い、30分後でも、ほぼ100%の生存を可能にするペプチド作成に成功している。効果としては現在利用できる抗血清より高い活性がある様で、明日からでも使える可能性があるのでノーベル賞講演の最初に持ってきたのではと思う。
以上が結果で、全ての方法論が独自に用意されているとは言え、何サイクルも検討を加えた大変な実験だと思う。Baker さんたちがこれまで発表してきたデザインペプチドの特徴は、全て大腸菌で作れるという点だ。すなわち、糖鎖などの修飾は必要なく、安価に作れる。これは進化を経て形成されるのと、ペプチドデザインはかなり異なる経路でできてきたことを意味する。
いずれにせよ、安価に作成できるということは、薬剤としては素晴らしく、ヘビ毒中和剤のように開発途上国で使われることを考えると誰もが中和剤を携帯することができる時代が来ることを示している。また、抗体の場合免疫原性が低い分子に対しては作成が難しいが、ペプチドデザインはそれを克服できる。2025年、Baker さんの研究室からいくつの論文とデザインペプチドが発表されるのか、想像ができないぐらいの数になる様に思う。
2025年1月18日
昨年はレカネマブの登場でアルツハイマー病(AD)を Aβ 除去により治療する臨床研究が一段と進んだが、AD 発症には Tau 凝集、そして ApoE の機能などが複雑に関わっており、今年はこの領域の研究も臨床応用されていくのではと期待している。
そこで今年になって発表された2編のアルツハイマー病研究論文を紹介する。最初のバイオベンチャー Denail Therapeutics からの論文は、ApoE アロタイプがなぜアルツハイマー病の重要なリスク要因になるのかについての研究で、1月9日号 Cell に掲載された。タイトルは「Decreased lipidated ApoE-receptor interactions confer protection against pathogenicity of ApoE and its lipid cargoes in lysosomes(脂質負荷された ApoE と受容体の相互作用が ApoE と脂肪カーゴのリソゾームでの病理過程を抑制する)」だ。
アルツハイマー病リスクに大きく寄与する ApoE4 が、Aβ の除去を遅らせ、炎症を高めることが知られているが、この現象の背景となるメカニズムは意外とわかっていない。この研究では、ApoE の本来の機能、すなわち LDL 受容体(LDLR)と結合することで、脂肪カーゴを細胞内に取り込ませるという反応をアロタイプ別に再検討することからはじめ、AD の低リスク要因の ApoE2 がほとんど LDLR と結合しない一方、ApoE3 と ApoE4 は LDLR と結合して脂質の取り込みを高めることを発見する。実験の詳細は省くが、この発見から研究を進め以下の結論を得ている(実験の詳細は省略する)。
LDLR と ApoE の関係は当然の話なのに、なぜこれまでこのような研究が行われなかったかを考えると、通常は ApoE4 のリスクを説明しようとどうしても ApoE3 と比較する研究が行われ、低リスク要因の ApoE2 の機能に注目が集まらなかったためではないかと思う。
さて、結論だが、
ApoE3 と ApoE4 は同じ強さで LDLR と結合し、脂質の取り込みに関わる。ただ、この結果 LDLR のリサイクルが低下し、Aβ の除去が遅くなる。一方、ApoE2 はほとんど LDLR に結合しないため、ミクログリアの LDLR はフリーのまま Aβ 除去に関わることができる。
ミクログリアだけでなく、アストロサイトや神経でも脂質の取り込みが高まると、細胞炎症が高まって、障害が起きる。
さらに、長いコレステロールエステルをリソゾームへ取り込むことで、リソゾーム内でのリポフスチン形成を促す。リソゾームへ移行するまで ApoE3nとbApoE4 の違いはないが、リソゾーム内の低い pH での凝集は ApoE4 が高く、これが ApoE4 がさらに AD の高いリスクとなる要因になる。
最後に、ApoE3 も ApoE4 も、クライストチャーチ型変異を導入すると LDLR と結合するプロテオグリカンとの結合が低下し、LDLRのりサイクリングを維持し、脂質の取り込みを抑制することでリスクを防ぐ。
以上が主な結果で、この結果に基づく様々な介入可能性が生まれたと思う。期待したい。
もう一編はハーバード大学からの論文。キセノンを一日一回吸入するだけで Aβ や Tau による神経細胞障害を抑えることができるという研究で、1月15日号 Science Translational Medicine に掲載された。タイトルは「Inhaled xenon modulates microglia and ameliorates disease in mouse models of amyloidosis and tauopathy(キセノン吸入はミクログリアを変化させてアミロイドや Tau のマウスモデルの AD 進行を抑える)」だ。
キセノンはこれまでもグルタミン酸受容体のシグナルを変化させることが知られており、神経の病気に使われていたようだ。従って、この研究は理屈抜きにキセノンが AD に効果があるという仮説を検証している。そして、キセノンを吸わせると、ミクログリアに大きな変化が誘導されることを発見している。実験の詳細を省いて結論をまとめると、
キセノン吸入は AD により活性化されたミクログリアの炎症反応を抑えるとともに、インターフェロン γ に反応して、貪食能などマクロファージとしての機能を高める。
この変化は、キセノンがおそらく CD8T細胞に働くことでインターフェロンの分泌が高まり、これがミクログリアの貪食処理能力を高めていると考えられる。実際、インターフェロンの活性を抑えると、キセノンの効果は見られなくなる。
他にもグルタミン酸受容体など、様々な効果が AD を守る方向に働いている。
結果、Aβ 蓄積モデルでも、Tau 異常モデルでも、キセノン吸入により神経細胞ロスを抑え、認知症の侵攻を防ぐ。
以上が結果で、本当のところの分子メカニズムの理解は難しいが、臨床治験がすぐ始まると思える研究だ。
以上、AD 制圧のための多様な研究が着々進んでいる。
2025年1月17日
我が国でも魏志倭人伝に書かれた卑弥呼のように、女性が社会的に高い地位を占めていたこともあるようだが、残念ながらそれを支える社会についての記述がほとんど得られないため、一般的に女性の強い社会が存在したのかどうかほとんどわかっていない。
一方、ギリシャ神話のアマゾネスのモデルになった中央アジアでは女性が戦士として闘った記録がある。さらに明確な記録として残っているのはローマ時代のケルトの女性で、財産相続権を持ち離婚や再婚の自由もあったこと、さらに場合によりアマゾネスのような戦士としてローマと闘ったことが書かれている。
ケルト人は、アイルランドから英国南部、さらには一部ヨーロッパにも分布していたが、今日紹介するダブリン・Trinity College からの論文は、南イングランド領域のケルト人の墓に埋葬された人たちのゲノム解析から、家族構成や大陸民族との交流について調べ、少なくとも英国のケルトが女系社会であったことを突き止めた研究で、1月15日 Nature にオンライン掲載された。タイトルは「Continental influx and pervasive matrilocality in Iron Age Britain(鉄器時代の英国の大陸からの影響と広く分布する母系社会)」だ。
この研究ではまず南イングランド Winterborn Kingston (WBK) 地域の後期鉄器時代の墓地から出土した55体の骨の DNA を解析している。実際には40体で十分な解読ができている。その結果、極めて希なミトコンドリア型が 2/3 の人たちに見られる一方で、Y染色体は極めて多様化していることがわかった。すなわち、この地域では女性の系統が限られている一方、男性は多様な系統が存在していることで、女性は地域に残り、男性が様々な地域から夫としてやってくる典型的母系社会が形成されていることがわかった。
ただ、女性だけの村に、男性が通ってくるタイプの母系社会ではなく、外から夫を迎え家族を形成する母系社会が形成されていることがわかった。まさに、ローマ時代の記録の正確性を物語っている。
母系社会では母親のゲノム多様性が低下するが、これは母親から受け継ぐミトコンドリアゲノムの多様性に反映される。そこでこれを指標として様々な時代の英国のミトコンドリア多様性を調べると、青銅器時代までは多様性が維持されていたのに、鉄器時代に入って急速に多様性が消失しているのがわかり、おそらく英国の広い範囲で同じような母系社会が形成されていたことがわかる。
以前紹介したが青銅器時代のドイツの村では、埋葬されている男子は遺伝的関係があるが、女子はほとんど関係がない。すなわち、男子が地域に残り、成人した女性は地域から出ていく。代わりに、他の地域から嫁として女性が来るという男系社会が形成されていた。ミトコンドリアゲノム多様性から、おそらく英国でも同じだったと考えられるが、鉄器時代に入って男系から女系へと移行が進んだと考えられる。
この原因として考えられるのは、この時期大陸との交流が特に南イングランドを中心に始まっていたことで、これはエトルリアを起原とする農耕民族ゲノムの拡大と一致する。実際、青銅器時代の英国ゲノムがどの程度維持されるかを調べると、南イングランドを中心に大きく大陸からのゲノム流入による英国ゲノムの低下が見られる。
結果は以上で、この要因からなぜ母系社会が形成されたかを考える必要がある。一つの可能性は、戦争が多発したため、男は地域に定住できず戦線に派遣された結果このような社会構造が定着したという考え方だ。また、南イングランドがローマの圧力で移ってきた人たちのコロニーとして形成されたとすると、戦争の日常化は余計現実味を帯びる。今後、同じ時代の大陸のゲノム解析が進むと、さらに正確な結論が得られるようになるだろう。
しかし、ローマの記録はかなり正確なことがわかる。我が国の卑弥呼についても同じレベルの解析が生まれるのはいつのことだろう。
2025年1月16日
今年も様々な大規模言語モデル(LLM)に関する論文でトップジャーナルは賑わうことだろう。
Nature では(上の図)、昨年の暮れに OpenAI が発表したより高い推論能力を持つ o3 というモデルが、Google の Collet が2019年に発表した AI には苦手の推論問題を選んだベンチマークテストで85点を獲得したことを報告していた。o3 のストラクチャーについては全く知らないが、Transformer をベースに AI を人間に近づけるための様々なモデルが開発されていることがよくわかる。実際、このブログで紹介しただけでも、チンチラ (https://aasj.jp/news/watch/25435 ) やハイエナ(https://aasj.jp/news/watch/25610 ) といった、新しいモデルを用いた研究が発表されている。そして昨年の暮れにはもう一つ注目されるモデルがメタの研究者から報告された。
Large Concept Model(LCM)と名付けられたモデルで、これまでの単語ベースのトークンの代わりに、基本的には短いセンテンスからなる、彼らがコンセプトと呼ぶ「伝えたいアイデア」を多次元空間にエンベッディングするモデルだ。
自然言語による LLM を知ったときの驚きは、膨大な文章を学習させることで一つ一つの単語が使われるコンテクスト、すなわち意味や階層性を確率論的であってもほぼ完璧に把握できていることだが、LCM では LLM の不思議な力を認めた上で、あえて我々が頭の中で行っているのに近い形、すなわち思いついたアイデアをつなげて、それを言語として表現するプロセスに近い処理を行うモデルが形成できないかチャレンジしている。
そのためには、文章を分解して、コンセプトにコードし直し、それをエンベッディングした多次元空間を形成し、そこから生まれるコンセプトのつながりを、もう一度言語を使った文章にコードし直せるモデルが必要になる。
エンベッディングやアテンションなどは LCM も Transformer を用いており、数理的処理など私の理解を超える点も多いが、これまで開発されてきた様々なテクノロジーを集めてモデルを作っている。例えば文章を分解するには SaT 、コンセプトのエンコード/デコードには SONAR と呼ばれる、同じメタで開発されたセンテンスをエンベッディングするモデル、そして画像処理や AlphaFold3 にも用いられた Diffusion と呼ばれる機械学習法などが組み合わされ、LCM を実現している。
その結果、言語に縛られずに長い文章を要約することが LLM と比べて特異なこと、多言語に対応できること、さらには学習した条件から実行計画を順番に作成すると言った LLM では難しい課題に使えることを示している。
しかし論文で示された結果はほんの入り口で、おそらく同じ concept 空間へエンコードする適切な仕組みがあれば、昨年紹介したような言語学習の脳を再現するといった (https://aasj.jp/news/watch/23861 ) 、人間の脳体験を再現する研究に利用できるように思う。他にも、生物分野ではノンコーディングも含めて、長い DNA 配列に詰まっている進化により生まれた様々なコンテクストを、LLM とは違ったレベルで明らかにしたりできるように感じる。
考えてみれば、我々が考えるとき、もちろん言語に縛られているが、特に発話に関してはまずアイデアが先にあって、それに言語を当てはめている。その意味で、LCM の大きなポテンシャルを感じる。
ここまでずいぶん前置きが長くなったが、今日紹介したいのは、ドイツ・フライブルグ大学からの論文で、我々がエクセルなどを使って処理している大きなデータセットに含まれる意味を瞬時に読み解く TabPFN と呼ばれるモデルの開発で、1月8日 Nature にオンライン掲載された。タイトルは「Accurate predictions on small data with a tabular foundation model(小規模の表形式データ処理の基本モデルによる正確な予測)」だ。
この研究では、表形式で表現したデータの意味を素早く把握する LLM の開発が目指されている。誰もがエクセルやスプレッドシートを使う時代だが、膨大な表形式データの中から、その背景にあるルールを見つけ出したり、あるいは表の中に隠された異常データを見つけるなどと言った高度の課題にはまだまだ対応できないという問題があった。
これを多くのデータを学習した LLM で解決しようというのが研究の目的だが、このために選んだ方法が、これまでの機械学習の常識を超える方法で、リアルワールドデータを学習するのではなく、人為的に生成した明確な因果性に基づくアイデアルワールドデータだけを学習させ、それを元にリアルワールドデータを解釈するというものだ。言ってみれば、Steve Wolfram さんの何百もの数式を駆使してリアルワールドを説明する WolframAlpha の能力を、多くの計算結果を覚えさせたモデルで実現しようとするようなものだ(私の勝手な解釈)。高校時代、数学問題を解くのはやめて、全て参考書に書かれていることを覚えて数学問題に対応する友人がいたが、似ているように思う。現在の LLM では in context learningと呼ばれる学習方法の究極にチャレンジしている。
そのために、様々なバリエーションが含まれるリアルなデータセットを集めて学習させる代わりに、理想的データを新たに合成し、それを学習させて正しい答えしか知らないモデルを形成したのだ。
驚くことに、正解しか知らない新しいモデルは、表形式のデータの分布を連続的なグラフとして表現する課題では、これまでの機械学習の遙か上の能力を持つ。すなわちリアルワールドに的確に対応できる。さらに正解しか知らないモデルでは難しいのではと直感的に思ってしまう、欠損データの予測や、例外を見つけることにも長けている。他にも表計算のベンチマークでテストすると、全く新しい次元のパーフォーマンスを示す。
パーフォーマンスの詳細は論文を読んでほしいが、医療で考えると、おそらく、バイオバンクの全データの傾向を探ったり、あるいは異常値を示す症例を探して、その背景を探ったりといった検索が、瞬時に行えることから、データさえ有ればこれまでわからなかった事実を多く見いだせるのではと思う。
最近、プロンプトチューニングなどで正しい因果性を教えることが LLM の正確度を高めることがわかってきて、学習やチューニングのさせ方が重要なポイントになっているようだが、正しい答えしか教えないと割り切ったアイデアが素晴らしい。
自然言語で同じことができるのかどうかわからないが、宗教などでは「教え」を説くのに使えるだろう。ひょっとしたら金正恩は使い始めているかもしれない。
このように正解しか習わない TabFPN には大きな問題があると思う。すなわち、正しい答えを実際のデータとして合成したり、あるいは抜けているデータを埋めることができるので、正しい答えを作るねつ造マシーンとして使われないかという懸念だ。
それでもそれが正しいとすると、科学のあり方自体が変わる可能性すらある。
2025年1月15日
これから世界を待ち受ける反科学の波が、温室ガスに対するグローバルな取り組みに強いブレーキをかけるだろう。こんな時こそ、科学は様々な可能性を示し続ける必要がある。
今日紹介するカリフォルニア大学デービス校からの論文は、材料さえうまく調達できれば建物や道路を建設することが炭酸ガス削減に繋がる可能性を示した研究で、1月10日号の Science に掲載された。タイトルは、「Building materials could store more than 16 billion tonnes of CO 2 annually(建築材料は16億トンの炭酸ガスを毎年吸収できる可能性がある)」だ。
全く分野外なので考えたこともなかったが、この論文を読んで少し調べてみると、我々がセメントなどに使っている材料には石灰、すなわち酸化カルシウムが含まれており、これは長い期間かけて炭酸ガスを吸収し炭酸カルシウムに変化する。すなわち、建物や道路が炭酸ガスを吸収してくれるという願ってもない可能性が存在する。
この研究は、世界の建築や道路を炭酸ガス吸収性の材料に変換することができること、そしてそれを実現すると、場合によっては現在排出される炭酸ガスの50%を吸収することすら可能であることを計算している。
まず、どのような材料が炭酸ガス吸収の可能性があるかを示している。最も吸収力が高いのは、生物材料を何らかの形で使った材料で、木材の家に限らず、例えばバイオマスを利用したレンガなどがあるが、生産量を考えると大きくない。
一方、セメントを炭酸化できる材料にしたり鉄鋼の高炉からでるスラグなどを炭酸ガスに晒して作成された炭酸塩をベースにした砂利やがれきは吸収力は高くないものの生産量が多いため、全体の吸収力としては大きく期待できると主張している。
全ての可能性を実際に行った場合、2100年までに吸収可能な炭酸ガスの量は1200ギガトンと、現在の目標を大きく上回ると計算している。
結果は以上で、論文ではこれを実現する具体的な方策とその難しさについてデータはあまり示さず細かい議論を行っている。例えば、アスファルトを作るときにコールタールの油を塗っているのを見るが、これをバイオマスからの油に変えることもできるらしい。また、空気にさらされていない場所からどのようにセメントの材料を調達すればいいのかなど、かなり詳しい提案が示されている。
その上で、実際にそのような取り組みを行っている会社について、名前を挙げて紹介している。例えばバイオファイバーを用いたレンガ製造会社や、鉄鋼のスラグと炭酸ガスで炭酸化した材料を作る会社、さらにはバイオオイルをアスファルトに使う会社などが紹介され、実際にオランダでリグニンを用いたアスファルトを引いた道路が作られたことも紹介している。
繰り返すが専門外なので評価は難しいが、行政のマニフェストとしても使えるぐらいうまく書かれた論文だと思う。炭酸ガス削減については、化石燃料の消費という点のみに焦点が当てられ、実際建築についても炭酸ガス排出量だけが問題になるが、工夫すれば大きな吸収力があるという指摘は、真剣に考えた方がいい。ロサンゼルスだけでなく、今トランプ支持者以外の世界中の人が、温暖化の猛威を感じている。
2025年1月14日
医療分野へのAI野大規模言語モデルの導入は着々進んでいる。特に期待が持てるのが、これまで専門家に頼らざるを得なかった診断分野への導入だ。特に病理診断に関しては多くの論文が発表されており、徐々に実用化が進むと期待できる。これ以上に大きな期待を集めるのが、以前紹介した AlphaMissense による遺伝子変異の機能的意味を教えてくれるモデルで(https://aasj.jp/news/watch/22948 )、特に我が国で遅れているゲノム診断の一般診療への普及を後押しできるのではと期待する。
とはいえ、AlphaMissense は分子構造をベースに変異を判断しているので、特定の変異の最終的な機能的意味を示すことはできない。このギャップを埋めるためには、多くの変異症例を集めるのと細胞レベルであらゆる変異の分子機能へのインパクトを調べる必要がある。
今日紹介する米国ガン研究センターからの論文は、変異により乳ガンのリスクが大きく上昇することが知られている BRCA2 遺伝子の一定の領域で起こりうる全ての変異を網羅的に導入し、各変位の機能を細胞学的に確かめた大変な研究で、1月8日 Nature にオンライン掲載された。タイトルは「Saturation genome editing-based clinical classification of BRCA2 variants(飽和的遺伝子編集を用いて BRCA2 変異の臨床的分類を行う)」だ。(同じ Nature にメイヨークリニックからほぼ同じ内容の論文が発表されている。)
この研究は、BRCA2 遺伝子で起こりうるほぼ全ての変異を再現して、その機能を調べるという途方もない課題にチャレンジしている。このために、BRCA2 遺伝子を一つだけ持つ ES 細胞を用いて、この遺伝子の 2479−3216 領域 (CTDB ドメイン)に、原理的に入りうる全ての1アミノ酸変異を含む変異を導入している。
このような網羅的変異導入のために、筆者らが Saturation Genome Editing と呼ぶ方法で、CRISPR/Cas9 で切断を入れた後、同時に存在させるデザインされた変異を持つ DNA 断片と相同組み換えを起こさせるという、大変な方法で6000種類もの BRCA2 変異を持つ ES 細胞を作成している。
ES 細胞は BRCA2 遺伝子なしでも生存するが、DNA が障害を受けると修復が起こらず死滅する。これを利用し、6000種類の遺伝子変異を導入した ES 細胞集団に遺伝子障害を誘導するシスプラチン有り無しで培養し、シスプラチン無しで維持されている変異(基本的には全ての変異は生存に影響がない)と、シスプラチン添加後14日に維持されている変異( BRCA2 機能が正常に保たれる変異)を比べることで、消失あるいは減少した変異( BRCA2 機能に影響する変異)を特定している。簡単に書くのがはばかられるほど大変な実験だと思うが、このおかげでスプライス異常などの大きな変異だけでなく、1アミノ酸塩基の変異に至るまで機能的インパクトを決めることができている。
さらに、14日後に残っている変異遺伝子の割合から、機能的インパクトを定量化することもできている。その結果、高度、中程度、ある程度病理的から、不明、大丈夫と思われる、ほぼ大丈夫から、大丈夫まで変異を分類することに成功している。
調べられた6000のうち、4724は正常で、高度に病理的と判断されたのは1200程度に収まっている。また、高度に病理的と判断された変異は、BRCA2 分子のヘリカルドメインにほぼ集中していることもわかった。
重要なことは、これまで評価された変異について情報を提供している ClinVar と比べて、不明という変異が大幅に減少した点で、最終的に不明として残ったのは353にとどまった。
さらに重要と思われるのは、先に紹介した Google AlphaMissense などのコンピュータ予測との比較で、明らかに ES 細胞での機能検査と一致しない変異が存在するものの、概ねよく一致している点で、大規模言語モデルもさらに改良を加えることで、安心して使える様になると予測できる。
他にも臨床例との比較など、今回の結果を徹底的に検証しているが割愛する。ここまでしてリアルワールドの機能にこだわったデータを示すことで初めて、バーチャルな AI の利用が可能になることがよくわかる重要な論文だと思う。