今年も様々な大規模言語モデル(LLM)に関する論文でトップジャーナルは賑わうことだろう。
Nature では(上の図)、昨年の暮れに OpenAI が発表したより高い推論能力を持つ o3 というモデルが、Google の Collet が2019年に発表した AI には苦手の推論問題を選んだベンチマークテストで85点を獲得したことを報告していた。o3 のストラクチャーについては全く知らないが、Transformer をベースに AI を人間に近づけるための様々なモデルが開発されていることがよくわかる。実際、このブログで紹介しただけでも、チンチラ (https://aasj.jp/news/watch/25435) やハイエナ(https://aasj.jp/news/watch/25610) といった、新しいモデルを用いた研究が発表されている。そして昨年の暮れにはもう一つ注目されるモデルがメタの研究者から報告された。
Large Concept Model(LCM)と名付けられたモデルで、これまでの単語ベースのトークンの代わりに、基本的には短いセンテンスからなる、彼らがコンセプトと呼ぶ「伝えたいアイデア」を多次元空間にエンベッディングするモデルだ。
自然言語による LLM を知ったときの驚きは、膨大な文章を学習させることで一つ一つの単語が使われるコンテクスト、すなわち意味や階層性を確率論的であってもほぼ完璧に把握できていることだが、LCM では LLM の不思議な力を認めた上で、あえて我々が頭の中で行っているのに近い形、すなわち思いついたアイデアをつなげて、それを言語として表現するプロセスに近い処理を行うモデルが形成できないかチャレンジしている。
そのためには、文章を分解して、コンセプトにコードし直し、それをエンベッディングした多次元空間を形成し、そこから生まれるコンセプトのつながりを、もう一度言語を使った文章にコードし直せるモデルが必要になる。
エンベッディングやアテンションなどは LCM も Transformer を用いており、数理的処理など私の理解を超える点も多いが、これまで開発されてきた様々なテクノロジーを集めてモデルを作っている。例えば文章を分解するには SaT 、コンセプトのエンコード/デコードには SONAR と呼ばれる、同じメタで開発されたセンテンスをエンベッディングするモデル、そして画像処理や AlphaFold3 にも用いられた Diffusion と呼ばれる機械学習法などが組み合わされ、LCM を実現している。
その結果、言語に縛られずに長い文章を要約することが LLM と比べて特異なこと、多言語に対応できること、さらには学習した条件から実行計画を順番に作成すると言った LLM では難しい課題に使えることを示している。
しかし論文で示された結果はほんの入り口で、おそらく同じ concept 空間へエンコードする適切な仕組みがあれば、昨年紹介したような言語学習の脳を再現するといった (https://aasj.jp/news/watch/23861) 、人間の脳体験を再現する研究に利用できるように思う。他にも、生物分野ではノンコーディングも含めて、長い DNA 配列に詰まっている進化により生まれた様々なコンテクストを、LLM とは違ったレベルで明らかにしたりできるように感じる。
考えてみれば、我々が考えるとき、もちろん言語に縛られているが、特に発話に関してはまずアイデアが先にあって、それに言語を当てはめている。その意味で、LCM の大きなポテンシャルを感じる。
ここまでずいぶん前置きが長くなったが、今日紹介したいのは、ドイツ・フライブルグ大学からの論文で、我々がエクセルなどを使って処理している大きなデータセットに含まれる意味を瞬時に読み解く TabPFN と呼ばれるモデルの開発で、1月8日 Nature にオンライン掲載された。タイトルは「Accurate predictions on small data with a tabular foundation model(小規模の表形式データ処理の基本モデルによる正確な予測)」だ。
この研究では、表形式で表現したデータの意味を素早く把握する LLM の開発が目指されている。誰もがエクセルやスプレッドシートを使う時代だが、膨大な表形式データの中から、その背景にあるルールを見つけ出したり、あるいは表の中に隠された異常データを見つけるなどと言った高度の課題にはまだまだ対応できないという問題があった。
これを多くのデータを学習した LLM で解決しようというのが研究の目的だが、このために選んだ方法が、これまでの機械学習の常識を超える方法で、リアルワールドデータを学習するのではなく、人為的に生成した明確な因果性に基づくアイデアルワールドデータだけを学習させ、それを元にリアルワールドデータを解釈するというものだ。言ってみれば、Steve Wolfram さんの何百もの数式を駆使してリアルワールドを説明する WolframAlpha の能力を、多くの計算結果を覚えさせたモデルで実現しようとするようなものだ(私の勝手な解釈)。高校時代、数学問題を解くのはやめて、全て参考書に書かれていることを覚えて数学問題に対応する友人がいたが、似ているように思う。現在の LLM では in context learningと呼ばれる学習方法の究極にチャレンジしている。
そのために、様々なバリエーションが含まれるリアルなデータセットを集めて学習させる代わりに、理想的データを新たに合成し、それを学習させて正しい答えしか知らないモデルを形成したのだ。
驚くことに、正解しか知らない新しいモデルは、表形式のデータの分布を連続的なグラフとして表現する課題では、これまでの機械学習の遙か上の能力を持つ。すなわちリアルワールドに的確に対応できる。さらに正解しか知らないモデルでは難しいのではと直感的に思ってしまう、欠損データの予測や、例外を見つけることにも長けている。他にも表計算のベンチマークでテストすると、全く新しい次元のパーフォーマンスを示す。
パーフォーマンスの詳細は論文を読んでほしいが、医療で考えると、おそらく、バイオバンクの全データの傾向を探ったり、あるいは異常値を示す症例を探して、その背景を探ったりといった検索が、瞬時に行えることから、データさえ有ればこれまでわからなかった事実を多く見いだせるのではと思う。
最近、プロンプトチューニングなどで正しい因果性を教えることが LLM の正確度を高めることがわかってきて、学習やチューニングのさせ方が重要なポイントになっているようだが、正しい答えしか教えないと割り切ったアイデアが素晴らしい。
自然言語で同じことができるのかどうかわからないが、宗教などでは「教え」を説くのに使えるだろう。ひょっとしたら金正恩は使い始めているかもしれない。
このように正解しか習わない TabFPN には大きな問題があると思う。すなわち、正しい答えを実際のデータとして合成したり、あるいは抜けているデータを埋めることができるので、正しい答えを作るねつ造マシーンとして使われないかという懸念だ。
それでもそれが正しいとすると、科学のあり方自体が変わる可能性すらある。
1:言語に縛られずに長い文章を要約することが LLM と比べて得意な
2:多言語に対応できる
3:学習した条件から実行計画を順番に作成する
と言った LLM では難しい課題に使えることを示している。
Imp:
汎用人工知能に近づいているようです。
レヴィ=ストローフの構造主義的宇宙観に近づいている??
これほどの勢いで新しいモデルが出てきますが、日本は一体どうなっているのでしょうか。
日本の存在を忘れてました!
確かに存在感が。。。
縦割り学部講座制・文理分離教育etcが、革命期の学問分野再編成の足かせになっているのではないでしょうか?
人工知能は、
コンピューターサイエンス・哲学・論理学・心理学・認知科学・神経生命科学・電子工学等の複合領域のようですが、
文理分断が激しい日本では、こうした分野が共同するのは難しい環境にあるのではないでしょうか?