このテキストは、AIにおける「世界モデル」の限界についての話です。特に、AIが言葉だけで学習しているため、人間のように物理的な世界の常識を理解できないという問題が指摘されています。具体例として、引くドアを押しても開かないと答えるAIや、綿菓子の上にレンガを置いたらどうなるかという問題で、物理的な現象を正しく予測できないAIの限界が挙げられています。

要するに、AIはテキストベースで学んでいるため、実際の物理的な世界のルールや常識を理解するのが難しいという課題があるという内容です。

【全文】

今日はですねチャットGPTに使われているLHL
LHL大規模現行のLHL
何が得意か何が得意じゃないかというのをお伝えします
基本的にLHLというのは
ある日に書くときにその文章の続きに次に来る単語は何かというのを
共通に予測するというのをインターネットとかにある
宇宙情報をベースに学んだりもして
言葉の生成に関してはどうするかを求めることを言う
インターネットに書いてある情報が多くが正しいものなので
結果として正しいことを言うようになっているというのがLHLなんですけど
一つ研究者の間で言われているのは
言葉だけで学んでいるから
僕らが赤ちゃんの時から大人になりにくれて
この世界に住んで手足を持って目を持って耳を持って
五感全部を使ってボールを投げるとか
スクエアに伸びないものを落とすとかということから
学ぶ物理の恐れだったり重力とか感性とか
いろんなものがあるじゃないですか
そういう熱いものがあると熱いとか
そういう世界はどうなっているんだという概念が
頭の中に人間に出てきて
そういう世界モデルというのは
いろいろなものを説明するときに分かりやすくするために
ある程度のシンクルにして
こういうルールがあるんだと理解することが
頭の中にある世界モデルを
人間は持っている
人間だけじゃなくて犬も猫も持っている
に対して体を持たないAIはそういうのがないから
人間だったら簡単に答えられるようなことに答えられないよ
これを答えてかけさないんだという研究が
それを問題を分かりやすくするために
どんな問題が不可欠なんだというのを示す
という実験をしたので
画像一覧にしているんですけど
そこには何としてもしたかというと
引くと書いてあるとは
左側に行ってそのドアを押すとどうなるかというものですけど
これって普通に僕らだったら分かるわけじゃないですか
小学生でも分かりますよね
引くドアを外から押せたら押せるに決まっているじゃないですか
だけど文字面だけから勉強したいルールも
正しい答えを出せなくて
そのドアは引くドアなんて引かないとあきません
という答えが書いてあるんです
これが一体の世界モデル
ドアって両側が上がって片方から引く場合は
反対側が押すんだとかという常識がないので
文字面からだろうとだけだと
引くドアだから引かないとあきませんと言っちゃう
もう一つの例はこれは張り付けてないんですけど
お目と亀したのは
8センチの高さがある渡がし
輪の渡がしの上に7センチの高さがある
レンガを乗せたら合わせて何センチになりますかという問題で
これも明らかじゃないですか
小学生でも分かるけど
渡がしの上にレンガを乗せたら渡がし潰れるので
7センチと8センチの15センチにならないわけですよ
多分7.5センチとか
もう本当に渡がしがピシャッと潰れてしまうので
にもかかわらずエレルマン兵器で15センチと答えていきたい
この辺が面白いと思うんですよね
世界モデルがないからこそこういう失敗をするんだけど
じゃあどうやって世界モデルを理解するかというのが
今は一つのピッチになるので
シミュレーションとかでできるかもしれないけど
やっぱり実際に手足を持っていかなきゃいけない
リアルな世界と関わらなきゃいけないから
結局ロボットを作ってやるまでダメなんじゃないのっていう人に
いやいやそうじゃないよ
言葉だけでも世界モデルは得られるはずだっていう人に言うけど
ただ言葉だけだとやっぱり
引くドアの反対側から押すと開きますなんてことは
わざと書いてないわけですよ
あまりにも違いない
そういう文章を一回書いたら多分ダメなのだけど
気がかすぎて書いてないものは書いてないけど
またはその綿菓子の上にレンガを置くケースなんていうのはないので
サンプルデータがないから教育できてない
もちろんだけど綿菓子を上から押したらどうなりますかってことで
綿菓子は柔らかいですとか
レンガは重いですとかっていう知識が持ってるんですけど
それがクイズとして出た時にちゃんと結びついて
小学生でも答えられることは見つけられない
というのが今のエベレンの限界ですよ
というのが今日のお話でした

AIの世界モデルは改善できるの?

AIの世界モデルは、いくつかの方法で改善が可能です。以下に主要なアプローチを紹介します。

1. マルチモーダル学習
AIにテキストだけでなく、画像や音声、動画などの異なる種類のデータを組み合わせて学習させることによって、物理的な世界に対する理解を深めることができます。たとえば、視覚情報を使って物理的な現象を理解することが可能です。
2. 強化学習とシミュレーション
仮想環境やシミュレーション内でAIに試行錯誤をさせ、物理的なルールや因果関係を学習させる方法です。例えば、ロボットを仮想空間で動かし、重力や摩擦といった物理法則を理解させることができます。
3. ロボティクスの導入
実際のロボットを使って、AIに物理的な操作や環境とのインタラクションを学ばせる方法です。これにより、AIは実世界の物理現象を直接体験し、それをもとに世界モデルを構築できます。
4. 物理エンジンの利用
物理シミュレーションを行うためのエンジンを活用し、AIに実世界に近い環境で学習させることができます。これにより、AIは物理的な動作や反応を予測する能力を高めることができます。
5. データの多様性と量の拡大
より多くの多様なデータを使用することで、AIが世界について学習する際のバイアスを減らし、一般化された知識を得ることが可能になります。
これらのアプローチにより、AIの世界モデルは徐々に改善されており、将来的には人間の常識により近い理解を持つAIが開発されることが期待されています。ただし、完全に人間と同じレベルの理解に到達するには、さらに多くの研究と技術的進歩が必要です。