協力を成立させる脳を研究するためには、最低2個体に一つの課題を学習させる必要がある。ただ、学習可能な協力レベルは動物ごとに異なる。例えば、レバーを押した時に、まず相手に褒美が与えられ、次に相手がレバーを押したときだけ自分に褒美が来るような、将来の可能性のための協力関係はチンパンジーでも難しい。一方、相手の動きに自分を合わせることで褒美を得るような課題はマウスでも可能だ。
今日紹介するUCLAからの論文は、二匹のマウスが褒美を得るために協調することを学習したとき形成される脳回路の示す特徴を、同じ課題を学習した2台のAIも示すようになるかを調べた研究で、1月1日 Science に掲載された。タイトルは「Neural basis of cooperative behavior in biological and artificial intelligence systems(生物学的及び人工知能システムでの協調行動の神経基盤)」だ。
研究ではまず2匹のマウスを透明な仕切りで相手が見える2つの部屋に入れて自由に行動させる。この部屋の端には鼻を突っ込む穴があり、反対側に水が出てくる孔が設置されている。マウスが単独で鼻を突っ込んでも水にはありつかないが、両方がほぼ同時に鼻を突っ込むと水にありつけるという課題で、協調することを学習させる。すると、徐々に成功率が上がって、相手に合わせて鼻を突っ込むようになる。こうして得られた学習効果は、間仕切りを不透明にして相手が見えないようにすると、全く消失する。即ち、完全ではないがこのレベルだとマウスでも協調行動を学習させることができる。
行動を分析すると、協調行動は孔に向かうアプローチ、すぐに鼻を突っ込まずに少し待つ行動、そして相手の場所を見て相手に合わせる行動に分析できる。この研究では最初から前帯状皮質神経だけに焦点を絞って、これらの行動に対応して反応する神経群が存在すること、またその活動記録からマウスの行動を解読できること、そして前帯状皮質神経活動を抑えるとこの学習効果がなくなることを示している。
動物を使った事件概要は以上で、おそらくこれだけでは Science に採択されなかったと思う。この研究のハイライトは、動物実験というより、同じ課題を2台の独立した再帰型ニューラルネットワークに Proximal Policy Optimization と言う学習アルゴリズムで別々に学習させている。それぞれのAIは自分の位置、行動、相手の位置行動がインプットとして入るようにしている。最初は全くランダムな行動の中で、協力すると報償が得られることを学習するまで、実際には4000回の学習を行わせている。
結果、全く協調ということを教えなくても、それぞれのAIは強調して報償を得ることを学習するようになり、この時のAIの行動でも、鼻を突っ込む行動を少し待って、相手の行動に合わせて次にとる行動の確立を決めるようになっていることがわかり、強化学習AIも学習したマウスと同じように行動していることを示している。
次からは完全に理解できているわけではないのだが、使った再帰性ニューラルネットワークを構成する256ユニットの活動を時間的に解析し、待つ行動に対応するユニット、相手の状態を表象しているユニットを特定できるとしている。
このような強化学習AIのユニットを神経活動とそのまま対応させていいのかは素人なのでわからないが、何も教えなくても強化学習が新しい課題を学び、行動的にはほぼ動物と同じ学習を行っていることから、実際の脳とニューラルネットを比べることで、両者の新しい理解につながっていくのだと思う。おもしろい。
