子供は1歳前後で言葉を覚えだし、2歳までに300語程度の単語を理解するようになる。そして、その後、砂が水を吸い込むようにボキャブラリーを含む言語能力が指数的に高まる。例えばドイツ語圏で子供は2-3歳で格変化を正しく使って話せるようになる。このように、子供の言語学習過程は、言語の構造を知るための鍵で、これまでは子供の発話パターンを中心に研究されてきた。例えばチョムスキーの生成文法や普遍文法のアイデアはこのような観察に基づいている。
しかし、発話パターンは子供の学習結果で、肝心の脳内での学習がどう行われているかは実験のしようがないと考えられていた。しかし人工知能はこれを可能にし始めている。すなわち、子供の体験をインプットとして人工知能を学習させることが可能になってきた。
今日紹介するニューヨーク大学からの論文は、頭にカメラを装着して視線の先を撮影するとともに、その時子供が聞いている言葉を記録したスナップショットを人工知能に学習させたとき、言葉を学習できるかどうか調べた研究で、2月2日号の Science に掲載された。タイトルは「Grounded language acquisition through the eyes and ears of a single child(一人の子供の目と耳を通して獲得される基本的言語)」だ。
ChatGPTを使うようになってから、いつかこの大規模言語モデルは、私たち一人一人の経験を記録したアバターとして利用される日が来ると確信しているが、その始まりを感じさせる研究だ。
ビデオカメラを目として一人の子供の視線の先を記録し、その時の子供が聞く音を記録し、1-2秒の画像と音のスナップショットをまず作成している。16時間ぐらいの記録で、最終的に60万イメージと、38000の短い文章を採取し、画像と文章を連結されたスナップショットを人工知能に学習させる。
一般的な教師付学習では、一つ一つの画像にアノテーションをつけて学習させるが、この研究ではContrastive learning と呼ばれる方法を用いて学習させている。実際、子供が目で見たときに聞いている音は「これは何々ですと」というラベルがあるわけではない。見ている対象に関係する様々な内容、すなわちラベルなしデータを学習していることになる。従って、Contrastive learning を用いるのは納得できる。
こうしてラベルなしContrastive 学習させたモデルは、画像からそれに対応する単語を答えることが出来るか?
勿論普通のラベル付き学習と比べるわけには行かないが、人工知能は画像とともに聞いた音の関連性から、6割の対象については正しい単語を示すことが出来ている。
しかも、一種のカテゴリー化も出来ており、全く同じ画像でなくとも異なる種類の蝶々やボタンといったアイテムを、ボタンとして答えることが出来る。
言語発達研究に人工知能を用いる最大の利点は、知能の内部の解析が行えることで、例えば経験した画像と単語の関係を分析することが出来る。この結果、例えば「車」と「道」という単語が比較的近接したベクトル空間に存在していることがわかる。逆にこのようなスナップショットだけでは「手」と「オモチャ」と言った関係性を整理するのが苦手なこともわかる。さらには、ビジョンマップなので、単語と関連させてどこを見ていたのかも解析出来る。これにより、ボールという言葉と、視線上のボールが一致していることも確認できる。
結果は以上で、要するに、聞いた文章を画像とともに記録する中で、人工知能の中にコンテクストが形成できている。個人の体験を人工知能に移して、その解析から個人の脳内過程を知るための研究が可能なことを教えてくれる論文だ。驚くのは子供の体験時間から言えば本当に短い時間での体験だけで、ここまでの言語が獲得できる点で、今後連続的時間の記録が可能になれば、さらに面白い研究が可能になる。
ChatGPTでは自然言語だけ、すなわち我々の脳内を一度通ったデータばインプットととして使われているが、マルチモーダルな埋め込みでの学習法開発が進んでおり、よりより人間の体験を今後学習させられるようになると、脳の解析が難しい実験は人工知能に移して調べることが普通になるだろう。
こんな面白い時代までなんとか生きることが出来ている喜びを感じる。
27
1:聞いた文章を画像とともに記録する中で、人工知能中にコンテクストが形成できている。
2:個人の体験を人工知能に移して、その解析から個人の脳内過程を知るための研究が可能だ。
Imp:
面白い研究が可能な時代が到来しそうです。
理論物理学者ハイゼンベルグが体験した行列力学の啓示。
この時のハイゼンベルグの脳内過程など、是非、知りたいですね。