自動車の自動運転は機械学習の一つのゴールだが、最近では大規模言語モデルや視覚言語モデルを活用する研究が急速に進んでいるようだ。おそらくLLMの導入の一つの狙いは運転時のベテランドライバーの判断を再現することにあると思うが、そのためには人間の判断や意志決定を正確に再現できるLLMの開発が必要になる。
今日紹介するドイツ ミュンヘン ヘルムホルツセンターからの論文は、人間の意志決定を予測できる、即ち人間の判断を再現できる言語モデルの開発についての研究で、7月2日 Nature にオンライン掲載された。タイトルは「A foundation model to predict and capture human cognition(人間の意志決定を予測できるファウンデーションモデルの作成)」だ。
碁や将棋といった特定のルールの中での判断を競う場合は強化学習の方法が確立しているが、人間はゲームだけしているわけではなく、様々な問題に対して判断していく必要がある。こんな場合は、人間の行動ではないが人間の作成したセンテンスを学習したLLMが向いていると直感的に感じるし、現在皆さんが使っているLLMでも状況に合わせて判断することができる。ただ、このグループはファインチューニングを通して、人間の行動予測により強いLLMが形成できるのではと着想して研究を始めている。
そのためのLLMプラットフォームとしてメタが開発して Llama 7B をダウンロードした一つのGPUを持つPCに実装し、研究に使っている。大きな研究室レベルというより、比較的小さなモデルを目指している。
この研究のハイライトは、人間の判断に近づけるためのファインチューニングに、100種類以上の人間の行動心理実験の結果を網羅した大規模データを用いているという着想だ。即ち人間の判断の集まりともいえるこのデータベースを言語化してファインチューニングに用いることで、通常の言語モデル Llama を判断に強いモデルへと変えられると考えた。
小さいマシンなので、GPUメモリを消費しないよう Quantized Low-Rank Adaptation という新しい方法でファインチューニングを行っている。このとき、あとでモデルをテストするため、敢えて全てのデータを学習させず、一部のデータをテスト用にとっている。大変そうだが、実際には5日でファインチューニングが完成しているようだ。
結論は期待通りで、様々な課題を Llama や強化学習モデルに溶かせたときと比べると、かなり高いレベルで人間の行動様式を予測できる。また、通常の行動心理テストに、新たな内容を加えて解かしても、高いパーフォーマンスを示す。そして、全くチューニングに用いなかった論理的行動に関しても、高精度に予測できることから、教えたことをただ繰り返すのではなく、新しいしかも多様な状況に応じた判断を予測できるようになっている。もちろん、データをあたえれば個人レベルの判断傾向も予測することができる。即ち、課題を問わない人間の判断を予測するファウンデーションモデルができた。
この研究のもう一つの面白さは、小さなモデルなので、LLM内での処理についても解釈することができる点で、これを利用して実際の人間が判断を行っているときの fMRI画像(=脳活動)とLLMの処理とを比較することができることを示している。すなわち、人間の脳内での活動をLLMと比べることも可能だ。
最後に、新しい課題に対して適切な判断を繰り返すことで、人間のように仮説に基づいた新しい実験が可能かといった一歩進んだ課題を予測できることも実験的に示しており、現在問題になっているLLMが自分で実験を行い新しい概念を出しうると言う可能性も示唆している。
完全に理解できたわけではないが、極めて面白いチャレンジで、当然自動運転やロボット手術も同じようなモデルが導入されるのではと思う。何よりも、テキストによるファインチューニングで、人間により近づいたのに驚く。
以前も正しいデータだけで学習させることの重要性を示したフライブルグ大学からの論文を紹介したが(https://aasj.jp/news/watch/25974)、ドイツは新しいLLM時代の研究方向に十分適応しているように思える。