このテキストは、AIにおける「世界モデル」の限界についての話です。特に、AIが言葉だけで学習しているため、人間のように物理的な世界の常識を理解できないという問題が指摘されています。具体例として、引くドアを押しても開かないと答えるAIや、綿菓子の上にレンガを置いたらどうなるかという問題で、物理的な現象を正しく予測できないAIの限界が挙げられています。 要するに、AIはテキストベースで学んでいるため、実際の物理的な世界のルールや常識を理解するのが難しいという課題があるという内容です。 【全文】 今日はですねチャットGPTに使われているLHL LHL大規模現行のLHL 何が得意か何が得意じゃないかというのをお伝えします 基本的にLHLというのは ある日に書くときにその文章の続きに次に来る単語は何かというのを 共通に予測するというのをインターネットとかにある 宇宙情報をベースに学んだりもして 言葉の生成に関してはどうするかを求めることを言う インターネットに書いてある情報が多くが正しいものなので 結果として正しいことを言うようになっているというのがLHLなんですけど 一つ研究者の間で言われているのは 言葉だけで学んでいるから 僕らが赤ちゃんの時から大人になりにくれて この世界に住んで手足を持って目を持って耳を持って 五感全部を使ってボールを投げるとか スクエアに伸びないものを落とすとかということから 学ぶ物理の恐れだったり重力とか感性とか いろんなものがあるじゃないですか そういう熱いものがあると熱いとか そういう世界はどうなっているんだという概念が 頭の中に人間に出てきて そういう世界モデルというのは いろいろなものを説明するときに分かりやすくするために ある程度のシンクルにして こういうルールがあるんだと理解することが 頭の中にある世界モデルを 人間は持っている 人間だけじゃなくて犬も猫も持っている に対して体を持たないAIはそういうのがないから 人間だったら簡単に答えられるようなことに答えられないよ これを答えてかけさないんだという研究が それを問題を分かりやすくするために どんな問題が不可欠なんだというのを示す という実験をしたので 画像一覧にしているんですけど そこには何としてもしたかというと 引くと書いてあるとは 左側に行ってそのドアを押すとどうなるかというものですけど これって普通に僕らだったら分かるわけじゃないですか 小学生でも分かりますよね 引くドアを外から押せたら押せるに決まっているじゃないですか だけど文字面だけから勉強したいルールも 正しい答えを出せなくて そのドアは引くドアなんて引かないとあきません という答えが書いてあるんです これが一体の世界モデル ドアって両側が上がって片方から引く場合は 反対側が押すんだとかという常識がないので 文字面からだろうとだけだと 引くドアだから引かないとあきませんと言っちゃう もう一つの例はこれは張り付けてないんですけど お目と亀したのは 8センチの高さがある渡がし 輪の渡がしの上に7センチの高さがある レンガを乗せたら合わせて何センチになりますかという問題で これも明らかじゃないですか 小学生でも分かるけど 渡がしの上にレンガを乗せたら渡がし潰れるので 7センチと8センチの15センチにならないわけですよ 多分7.5センチとか もう本当に渡がしがピシャッと潰れてしまうので にもかかわらずエレルマン兵器で15センチと答えていきたい この辺が面白いと思うんですよね 世界モデルがないからこそこういう失敗をするんだけど じゃあどうやって世界モデルを理解するかというのが 今は一つのピッチになるので シミュレーションとかでできるかもしれないけど やっぱり実際に手足を持っていかなきゃいけない リアルな世界と関わらなきゃいけないから 結局ロボットを作ってやるまでダメなんじゃないのっていう人に いやいやそうじゃないよ 言葉だけでも世界モデルは得られるはずだっていう人に言うけど ただ言葉だけだとやっぱり 引くドアの反対側から押すと開きますなんてことは わざと書いてないわけですよ あまりにも違いない そういう文章を一回書いたら多分ダメなのだけど 気がかすぎて書いてないものは書いてないけど またはその綿菓子の上にレンガを置くケースなんていうのはないので サンプルデータがないから教育できてない もちろんだけど綿菓子を上から押したらどうなりますかってことで 綿菓子は柔らかいですとか レンガは重いですとかっていう知識が持ってるんですけど それがクイズとして出た時にちゃんと結びついて 小学生でも答えられることは見つけられない というのが今のエベレンの限界ですよ というのが今日のお話でした
AIの世界モデルは改善できるの?
AIの世界モデルは、いくつかの方法で改善が可能です。以下に主要なアプローチを紹介します。 1. マルチモーダル学習 AIにテキストだけでなく、画像や音声、動画などの異なる種類のデータを組み合わせて学習させることによって、物理的な世界に対する理解を深めることができます。たとえば、視覚情報を使って物理的な現象を理解することが可能です。 2. 強化学習とシミュレーション 仮想環境やシミュレーション内でAIに試行錯誤をさせ、物理的なルールや因果関係を学習させる方法です。例えば、ロボットを仮想空間で動かし、重力や摩擦といった物理法則を理解させることができます。 3. ロボティクスの導入 実際のロボットを使って、AIに物理的な操作や環境とのインタラクションを学ばせる方法です。これにより、AIは実世界の物理現象を直接体験し、それをもとに世界モデルを構築できます。 4. 物理エンジンの利用 物理シミュレーションを行うためのエンジンを活用し、AIに実世界に近い環境で学習させることができます。これにより、AIは物理的な動作や反応を予測する能力を高めることができます。 5. データの多様性と量の拡大 より多くの多様なデータを使用することで、AIが世界について学習する際のバイアスを減らし、一般化された知識を得ることが可能になります。 これらのアプローチにより、AIの世界モデルは徐々に改善されており、将来的には人間の常識により近い理解を持つAIが開発されることが期待されています。ただし、完全に人間と同じレベルの理解に到達するには、さらに多くの研究と技術的進歩が必要です。