2026年5月27日 | AASJホームページ

AASJホームページ > 2026年 > 5月 > 27日

5月27日　学習効率を上げるためには褒美を一度に多く与えるのが良い（5月21日 Science 掲載論文）

2026年5月27日

SNSシェア

AIの進展もあって、強化学習のメカニズムについての研究の注目度は一段と高くなっている。私自身専門ではないが、強化学習の研究を読むことは多い。強化学習実験のキーは、学習に際して褒美を与えることで、学習効率、学習意欲、そして記憶の固定が促進されるが、辺縁系を中心にこの促進効果に関わる回路を特定する研究に発展している。しかしこの論文を読むまで、褒美の量と与え方の違いの重要性に思い至ることはなかった。

今日紹介するハワードヒューズ医学研究所の Janelia Research Campus からの論文は、学習は少量の褒美を与えて試行を繰り返させることで強化されるとする先入観を、褒美の量や与え方を変化させる強化学習実験を行って再検討した研究で、5月21日 Science に掲載された。タイトルは「Reward magnitude determines reinforcement learning efficiency（褒美の大きさが強化学習の効率を高める）」だ。

この研究ではまず隠れた標的を見つけると褒美が与えられる強化学習システムを用いて、通常褒美として使われている喉の渇いたマウスに対する5μlの水の代わりに20倍の100μlを与えたときに学習効率は変化するか、を調べている。考えてみると、褒美の大きい方が頑張るのが普通だと思うが、これまでの実験がそれを無視して行われていたのはおもしろい。

結果は予想通りで、学習過程を学習率、学習結果の記憶固定、そしてやる気の維持に分けて調べると、最初に多くの褒美を上げた方が全てで促進が見られる。これは、障害を避けてレバーを動かすテストや、国際的に意志決定を学ぶ実験で標準になっているテストでも、全て同じように効率を高めることができる。おもしろいのは、褒美の総量が問題ではなく、少ない回数でも一度に大きな褒美が得られることが重要になる。

強化学習なので、行動の背景にあると考えられるドーパミン神経興奮を調べると、大きい褒美ほど興奮の強さが強く、しかも興奮が長続きする。その結果得られる強いドーパミン分泌が、学習の様々なプロセスを強化すると考えられる。

これを確かめるため、通常の少ない褒美トライアルで、腹側被蓋野を刺激してドーパミン分泌の量を調節すると、強い持続的な刺激を加えたときに大きな褒美を与えたときの起こる強化学習効率の促進が可能であることを示している。

学習に必要な過程への影響で見ると、学習を繰り返すうちに起こってくるやる気の喪失（disengagementのこと）が、大きな褒美を与えるといつまでも真剣にトライアルを続け、やる気が維持されるのがおもしろい（というか身につまされる）。また、セッションを超えて学習記憶を固定化する過程への作用が弱いのは、辺縁系と海馬とのつながりを弱さの反映かもしれない。もちろんいいことばかりではない。条件付けと刺激が間隔を置いて与えられるパブロフ型連合学習実験の場合、次のトライアルの褒美に対する神経反応が鈍化してしまう。

以上が結果で、一般的には褒美は一度にたくさん与えるのがいいという、極めて納得のいく結果になっている。論文を読んでみると、神経回路や神経細胞の詳細はあまり気にせず、神経科学は最小限に抑えている。おそらく元は心理学畑の研究者ではないだろうか。しかし、だからこそより行動に近いところで素朴な疑問を発することができる。おそらくこのようなデータこそAIへの利用もしやすいのではと推察する。

カテゴリ：論文ウォッチ

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

5月27日 学習効率を上げるためには褒美を一度に多く与えるのが良い（5月21日 Science 掲載論文）

5月27日　学習効率を上げるためには褒美を一度に多く与えるのが良い（5月21日 Science 掲載論文）