私たちは毎日様々な予想や期待を頭に浮かべながら行動し、うまくいけば行動を正当化し、期待が裏切られると反省して、期待確率を常に変化させる。パブロフの犬もこの行動に含まれるが、この様な期待と現実の一致する統計確率を学習することが私たちの生存に必須の条件であるとして、多くの研究が行われている。この報償回路はドーパミン作動性神経によりコントロールされているが、具体的にどの過程に関わるか明らかにするのは簡単でない。というのも、マウスの期待と落胆や満足を正確に理解することが難しいためだ。従って、マウスの期待と現実をできるだけ正確に測定するための課題設定がこの研究分野の鍵になる。
この様な期待に基づく行動過程で、線条体の神経活動が1−2秒ぐらいのサイクルの大きな周波数の波に同調していることが知られている。この波は、将来得られる褒美の価値に対応すると考えられてきたが、最近コンピューター科学から提唱されたTemporal Difference learning、すなわち次の瞬間の期待度と、次の瞬間での期待度の違いで表される指標(RPE)、言い換えると期待が裏切られた量と関係しているとする説が受け入れられる様になった。とはいえ、これから得られる価値への期待の高まりと、RPEは密接にリンクしており、それを正確に区別することは簡単でない。
今日紹介するハーバード大学からの論文は時間を超えるという経験をマウスにさせることで次の瞬間についての期待と現実とを大きく変化させることで、実際の褒美の期待度から切り離してRPEを測る課題を設計し、この問題にチャレンジした研究で12月10日号のCellに掲載された。タイトルは「A Unified Framework for Dopamine Signals across Timescales (時間経過に伴うドーパミンシグナルの統一的フレームワーク)」で、責任著者は内田直重さん。
この研究では風景が変わる道を一定距離走るとジュースにありつけるという課題を覚えさせ、この道をもう一度景色を見ながら走る間ジュースへの期待が高まるという設定を作る。この間にドーパミン神経の活動のまとまり、特にrampingと呼ばれるゆっくりとした波ををfiber fluorometoryという方法で測定している。
結果は期待度ではなく、RPEとドーパミン神経の興奮周期が相関することを示したのだが、この研究のポイントはなんといってもRPEと期待度を切り離すための課題設計だろう。
学習した道をジュースを期待しながら走っている間、当然期待度は時間と共に上がっていく。この時、著者らがテレポーテーションと呼ぶ、すなわち次の瞬間途中の道がすっ飛んで、ジュースに近い地点が次の瞬間現れるという経験をさせる課題だ。実際には、道を走ってジュースにありつくという課題を全てバーチャルリアリティーで再現しているため、テレポーテーションが可能になる。
人間でも知らされずにそんなことが起こったら戸惑うが、テレポーテーションのトリックなど考えもつかないマウスにすれば、ゴールの方が次の瞬間近づいてくるので、期待は大きく外れる。しかし、その地点がもつジュースへの距離、すなわち期待度は同じなので、この時脳の活動が変化すれば、RPEをコードしていたことになる。また、テレポーテーションの距離の長短は、予想が裏切られた量に比例することになる。
他にも異なる道に急に移されたりなど、要するに他の場所に瞬間移動するというSFをマウスに経験させる課題で、この課題を読むだけでこの研究が分かった気になる面白い論文だ。
あとは、ドーパミン神経の活動だけでなく、実際のドーパミン濃度の周期的変化もRPEと関わること、個々の神経興奮レベルでこの周期が形成されること、匂いのシグナルで期待を変化させる実験などを行なっているが、詳細は省く。要するに、素晴らしい課題設計で、脳回路のアルゴリズムに、コンピュータサイエンスのアルゴリズムを当てはめられることを示した研究だと言える。この分野は、まさに科学とはかけ離れた様に見える倫理や道徳につながる分野なので、大きく期待している。