AASJホームページ > 新着情報 > 論文ウォッチ > 1月20日 脳内での強化学習過程を海馬の場所細胞から探る(1月14日 Nature オンライン掲載論文)

1月20日 脳内での強化学習過程を海馬の場所細胞から探る(1月14日 Nature オンライン掲載論文)

2026年1月20日
SNSシェア

私たちのNPOの理事の一人の呼びかけで「AI x 生命科学」と名付けた勉強会を行っており、これまでDNAを情報媒体として学習した生成AIのモデルについて学んできた。その一部は YouTube で配信しているので是非ご覧頂きたいが(第2回https://www.youtube.com/watch?v=hBFr9aVoXIQ、第4回 https://www.youtube.com/watch?v=7WkHIWwHi_k)、次回は脳での学習や情報処理と生成AIについて取り上げようと考えているので、連絡いただければ Zoom URL をお送りする。

今日紹介するカナダ McGill大学からの論文は、生成AIではないが、AIの強化学習を念頭に海馬の場所細胞の学習について研究した論文で、1月14日 Nature にオンライン掲載された。タイトルは「Predictive coding of reward in the hippocampus(褒美を予測する海馬のコード)」だ。

海馬には場所細胞が存在して自分のいる場所を特定しているが、グリッド細胞と異なり、場所細胞は学習を通してアップデートされる。研究には結果を基づき褒美を与えてフィードバックすることで学習させる実験系が使われるが、学習する過程自体を長期間記録する実験はあまり行われていない。

この研究では、マウスのケージに置かれた2枚のプレートのうち、光ったプレートとは反対側にあるプレートを鼻で押すと褒美が得られる課題を学習する過程で、海馬の場所細胞の活動をカルシウムイメージングで長期間観察し、1)褒美を享受している時の細胞 (reward cell) 、2)どちらのプレートを押すか考えているときの細胞 (screen cell) 、3)そしてプレートを押した後褒美が置いてある場所に移動するときの細胞 (approach cell) をそれぞれ特定し、学習が進むにつれこれらの細胞が変化するかどうかを調べている。実際には、screen cell、approach cell、reward cellと言う順番で興奮がおこる。

学習の始まったとき、記録した全細胞の8.5%が最後に興奮する reward cell と特定できる。これに対し褒美を得るための準備と言える screen cell は7.5%, approach cell は5.7%だ。ただこれらの細胞は学習過程で常に同じように興奮するのではなく、学習が進むと reward cell として興奮していた細胞が徐々に approach cell へ、さらには screen cell へとシフトすることを発見している。即ち報酬による活動が、徐々に報酬を予測する行動に前倒しされていくことを明らかにしている。

実際データは以上で、長期間にわたる学習過程そのものを記録したのがこの研究の特徴だが、この結果に基づいてさらに理論的に考察を進め、このデータから、海馬での学習が強化学習法の一つ、Temporal Difference (TD) Reinforcement Learning (TD強化学習) と同じであることを提案している。

専門ではないので詳しく解説は出来ないが、初期には報酬時で最大になる学習を、学習が進むごとに、報酬を得るためのそれぞれの行動へとシフトさせることで、予測効率を高めることで、成功率の高い行動を可能にしている学習法が、各ステップで予測誤差を計算して成功率を高めるTD強化学習と同じと言うわけだ。

もちろん海馬細胞自体は報酬を指示する細胞ではない。海馬細胞が腹側被外野のドーパミン神経とループを形成して報酬を受け取る構造になっている。このVTAドーパミンは報償そのものではなく、予想した報償と実際の報償との誤差を計算して興奮するので、元々予測材料を送る仕組みと言える。従って、最初は報償を期待していないところに報償が来てVTAから刺激を受けていた reward cell は、報償を得るための準備行動へとシフトすることで、報償前の準備段階からドーパミンの刺激の差を使って予測していることになる。

今後はドーパミンの分泌刺激モニターを加えた実験が期待される。いずれにせよ、このように脳の役割を一つのニューラルネットから、セグメント化していくことが、新しいAI開発の鍵になると著者らは考えているようだ。我が国の若者も、AIだけに集中するのではなく、脳科学や生命科学を学んで新しいアイデアに満ちた基盤モデルを作ってほしい。

  1. okazaki yoshihisa より:

    即ち報酬による活動が、徐々に報酬を予測する行動に前倒しされていくことを明らかにしている!
    imp.
    Bio- inspired Computer!
    生物神経回路から学ぶ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

*


reCaptcha の認証期間が終了しました。ページを再読み込みしてください。