自動運転の記事やブログを見ているとセンサーの話題がよく出てきます それもライダーなのかカメラなのかそういう比較ですキジの多くはライダーの方が3 次元空間は測るのに性格だ ライダーの方が自動運転には向いているそういうふうに書いてあります しかしテスラはライダーを言っ 一切使いません4つ考えどころかイーロンマスクはライダーなんて使うのは頭が悪いと 言い切ってしまいます 以前テスラの自動運転とライダーケイトレベルファイブはどっちが先それを動画でご 紹介しました 今回はそれをもう少し踏み込んでテスラがライダーを使わない 尾錠方式でそれを完全自動 運転のレベル5をどうやって大勢しようとしているのか なぜライダーを使わなくても大丈夫なのかその辺を突っ込んでみたいと思います 誰か子どもってるわけこういうこともできるんです me ハチアブねー 今日はもっとテスラ社員で経営コンサルタントのバーと小さです 今日のお話はこれまず第一は幼い 今なぜてつら方式はライダーを使わなくても大丈夫なのか 3番ライダーミリ波レーダーの欠点 そして4万けせらはピュアビジョン奉仕型4 か一番おさらいですまず最初に自動運転の基本となる技術のところでテスラが使う方式 とその他全ての会社が使う方式とそのさあ その違いそれをですねこの動画でご紹介していますのでぜひ見てみてください ここで一応サクッとお申しますねまずテスラは b 情報式そして他者はジオメトリー方式 この2つでしたね鉄だが取る方式はビジョン方式と言ってですね 外側にある8台のカメラ木の葉時代のカメラで撮った動画データですねこれを主な情報 園としていますそれに加えて車の前方にあるレーザー そして車を取り囲むように に12台の超音波センサーが付いていますその特徴はライダーを一切使っていないと いうことです なので自動運転を比較するときそのフォーカスはですねだいたいカメラとライダー どっちがいいのっていうことに 注意が行きがちなんですけれども実はこのケスラーを取るビジョン方式と他社が取る ジオメトリ方式この最大の違いはですね そこではないんですねビジョン方式は実写 事情メートル方式は市時ケセラのビジョン報酬を支えているのはこのカメラで撮った 実写映像です ゲイ こうバージョンのオートパイロットは今のところまだ正繁ですつまり 写真ですでも今限定的にテストをしているベーター版の fsd これはですねビデオ映像つまり動画なんです 対してライダー8ミリ波レーダーを使うこのジオメトリ方式は cg の世界だと思っ ていただけると 分かりやすいですただ実写で見ているわけではないのでもう vr をかぶってですね その cg の中を走っていると思っていただくといいと思います テスラビジョン方式でレベル5を目指すテツナがビジョン方式を使っている最大の目的 は このレベルファイブと呼ばれる完全自動運転を目指しているからです テスラはレベル5を達成できるのはこの日情報色しかないと考えています 他社は城名トレイ方式でエベル4で十分だと考えている 他者をとっているこの10m 方式はこの自動運転の開発当初 ねこのぐらいライダーがあまりに に正確なのでこの方は開発が早いと思われていたんですね しかしそこには落とし穴がありましたつまりライダーで撮ったデータでそのままで運転 するわけではないんですねそれはもうあらかじめ作った3 d の高精細のマップ データ その中とを照合してですねそのデータの 彼を走るということなんです色ずっと前からですねライダーなんて高いものを使うのも 頭悪いと言ってますそしてテスラの音のもステイというですね2019年に行われた 自動運転の技術を倒壊してイベントありましたそこでいいローンはですね ライダーを使う企業は破滅する等で行ったんですその政府から elon はアンチライダーだというなんかイメージがついちゃったんですけども実は そんなことはありません 実際いようが創業しようであるそのスペース x そこではですねその例えば ドッキングする時とかにまあ スペース x 独自開発のライダーを使っているくらいなんです なのでいい論はライダーが嫌いなのではなくてですね 自動運転には必要がないと考えているんです 2番なぜテスラ方式はライダーがなくても大丈夫なのか それはカメラさえあれば大丈夫だからでしょうか 確かに入ってする ですねカメラから情報があれば大丈夫だと考えていますけれどもそれはカメラが優秀だ からではないんですそれはカメラで撮る実写の動画映像のデータがあってそれに強調 高性能の ai が合わさってという条件がつくんですこの ai を に ルーラルネットワークまたはニューラルネットと言います このニューラルネットの良し悪しによってカメラからくる映像データで大丈夫なのか もしくはダメなのかこれが分かれてくるんですこのカメラの動画データと ニューラルネットワークの ai とこのコンビネーションですね分かりやすく例える と カメラは目ニューラルネットはノーと考えてください そうするとわかりやすいと思いますそう考えるとどうですか 何かに似てると思いませんかそうです人間はそうやって運転しているんです 人間用インできているうんてるという世界は見て 判断するというビジョンを式でできているんです なのでてスラーのビジョン方式はカメラで見て ニューラルネットで判断するそういう方式なんです しかしカメラで撮るビデオ映像にはライダーにはない欠点がありました それはカメラで撮る映像というのは基本 2 d 2次元なんですよね2 d とは縦と横の世界 3 d とは縦と横と奥行きの世界ですね つまり通常のカメラで撮影する動画はデータとして奥行きという情報が欠けているん ですや北駅データなんてね自動運転に入りませんよです そんなことはありませんではテスラの三条方式はどのようにしてその奥行きを見ている んでしょうか 現行市販されているオートパイロットいうのはその車の前についているレーダーでまぁ 図ってそれを使っているところがありますしかしそれに頼っているわけではないのです ではどうやって その奥駅を見ているんでしょうかそれは先ほど言った ニューラルネットですえっ らいが動画から見てるんですかはいそうなんです テスラの ai チームが開発したのにはいくつかの画期的な技術がありますひとつに はテスラです数どうライダー つまり疑似ライダーと呼ばれるその2 d の動画データから ai が3 d の 世界を計算するという技術です例えばこのようには2 d の 動画データからこのように3 d の細かい物体シミュレーションができるそういう 技術を開発したんです まずはこの疑似ライダーがあるのでライダーはいらないと言う 一つの理由になっていますそしてこのサンプル画像を見てみてください まあ上のところはですねまずは2 d で観たところでまぁ車の止まっている っていうねそういうところに意識してますよね真ん中の画像はこの色のグラデーション なってますよね 恋今のところはですねまぁ遠くにある 真ん中の紫とかピンクのところこれは中間ですね そして手前にあるのはクリーム色みたいになってます これはですねその2 d のビデオ画像から ないが奥行き距離を計算しているということです 下の画像はそのそれはデータをもとにまあスカンポくですねその1関係を割り出してい ますこれに加えてそのてスラーのビジョン方式の強さの一つにですね この8台のカメラで撮った動画をですねスティッチんぐと呼ばれる合成で360度いっ 1枚の動画画像にしているということですこれは iphone やスマホのパノラマ 人てますけれどもこれは写真ではなくてリアルタイムの動画データだということです そしてこの360度つながったデータを基に計算しているのがこのバー在留というこの 二巻ですね これによって自分の位置関係を計 させていますでこれを見てひょっとしては思ってませんかあのほら bmw とかね もう二巻ビューだってありますよって見てますよって大手ませんか ねでもねあれはね全然違うんですよあれは単純に映像をつなげてですね モニターに出しているだけなんですねデータ化してないんですでテスは場合このカメラ で撮った映像 をもとにですねその ai が画像データ分析処理をしてそのまるで地図の中にいる ように自分の位置を見てですねこれによって特に交差点とかで曲がり方とかそれを正確 に安全に走ることができます こうすることによってジオメトリ方式があの3 d hd マップの中をショーをする そのようなことが同じようなことができているということです ねえケースなるニューラルネットワークすごいですよね もっとありますサゲドライダーは3 d でデータが計測できるといいますよね でもけっすだのシステムは4 d で判断できるんです じゃあその4 d っていったいなんでしょうかそれは 時間という軸を持っているということです 例えばこのゴミ収集車のような物体があってですよ その向こう側から人が歩いてきたとしますでこの車の向こう側に隠れてしまうと見え なくなりますよねしかしケスラーのニューラルネットはこの人をですね人として認識し て この歩いている方向と スピードこれを時間軸として捉えています なので難病にこの左側に出てくるというこの予想を立てることができるのです もちろんこの車の向こうでね方向転換をすることもあるかもしれませんけれども 通常だとこっちの方に出てきますよねでこの時この車が単なる物体ではなく壁とかでは なくゴミ収集車だということもちゃんと認識してるんですこのように物体の縦横奥行き そして場所それを見ているだけではなくてそれが何なのかそしてどう動いているのか それも考慮に入れた上で計算シミュレーションをしているということです そしてカメラで撮影した画像 いうのはピクセルというまあ日本でいうとがそうというね 10でできていますこのピクセルを例えばみーピクセルかける new ピクセルの4 ピクセルを一つの単位として 1ピクセルずつずらしていきますそうやって動きを計算してるんですその中で自分は どの方向にどの速度で動いて のかそれは勝っているわけですからそれなのかー もしくはそのも写っている物体もしくは1それが動いているのかその両方なのか その辺を考慮いちゃんと入れて解析して分析して 判断をするんですこうやってテスラニューラルネットはいろんな形でですね三次元でも の音を認識してそこのにいる場所もの道路 人なのかものなのかそれは自分はどこにいて何がどう動いているのか これを全部解析して 自分の次の動きを判断しますこれは単にカメラで実車をとっているからといってできる ことではないんですこの世界最高峰のニューラルネットが裏で動いているからこそ可能 になる世界ですそしてこのニューレッドが正しく判断をできる その精度をどんどんどんどんあげるこれや 機械学習であり深層学習ですその機械学習の大基になるデータ それを360度の動画データを毎日世界中で走っている 100万台を超えるその車からですね 毎日データを収集していますそれこそ何百万キロというデータ が入ってくるですこれによって日々頭がよくなる ゲスラーのニューらー net これがあるからこそ良い論は ライダーなんていらない大江で言えるんです これは世界中他のどの企業にもできないことです3ライダー8ミリ波レーダーの欠点と テスラの特異点テスラのカメラは人間の目の役割をしていると言いました ではこの目であるカメラにできてライダー8ミリ波レーダーにできないことそれは何 でしょうか 基本的にライダーやレーダーには色が認識できません 文字を読むこともできません特にライダーは光の反射に影響されますので黒や濃紺 そして濃い色のものや車が見え抜く事があります カメラで撮る動画映像なればその点は問題ありません 例えばライダーで見る stop sign ての大体こんな感じです この形や大きさ そしてどれぐらいの棒の上にくっついているだからこれはきっと stop sign だろうと ai に判断させる それぐらいのことはできるとしますしかしこのような場合 ストップサインが下には様々な指示や条件が書かれているそういうことありますよね このような標識はもうお手上げですライダーまた濃い霧 や雨の中でも影響されますミリ波レーダーは電波を使うので基本的に形がわかりません また人間の体のように電波を吸収してしまう物体も見えなくなります その点ライダーはある程度細い形や大きさもわかるのでそれが人なのかどうかとかで 大人なのか子供なのかも判断でき ますこのように二夜目エントリー方式を採用する場合複数のセンサーにはそれぞれ不 得意な部分と得意の部分がありますのでその出っ張り引っ込みを補い合う必要があるん ですね なので例のホンダレジェンドもこんなに沢山のセンサーが付いています でも他社のシステムようにもっとたくさんのセンサーをついている本を託す あります当然コストもかさみますそれもあって ホンダレジェンドは通常のバージョンとそのレベル iii のバージョンではですね 約400万円も彼だが違うんですね 相撲アメリカだったその差額だけで寝て砂1台買えるぐらいです その点テスラのメインセンサーはカメラです 基本的に人間の目に見えるものはカメラでも認識できますそれは形大きさ色そして ニューラルネットを使えば文字も読めます例えば同じ道路標識でもその 状態によって意味が変わったリトル日報道が変わったりすることはありますよね 分かりやすい例でみると例えばこのストップサインですね例えばその気にちょっと隠れ ていたり 弁慶がちょっと剥がれていたりそういうのであるじゃないですかそれでもストップ歳7 ばどうかというのは判断できなければいけません例えば スクールバスの横っちょについている stop sign あれはですねを張ってと 入れていれば止まれもしボディにピタッとくっついてれば無視していいんですもしくは 固定されてないもの 例えばこの工事のですねセキュリティ予算は持っている手で持っているストップ西これ は上に持ち上げていれば 止まれ 下に応募していれば通っていいってことですよね ネチョの踏切やゲートについているストップサインもその状態や位置によって意味が 変わってきます このような状態をカメラで見てニューラルネットで判断できなければいけませんけ セラーのシステムはビジョン方式なので この優秀なニューラーネッドと組み合わせること は得意分野ですでも言われるかも知れませんよね掃除をメドリ方式の車になってカメラ 付いてるんでしょ はいカメラに撮ったデータでねまあそれは色とかね佐村判断できるかもしません でもそのもカメラでですよでそこまでニューラルネットできちっとした 細かい判断が出来るのならば それこそライダーなんて必要なくなるんですそこまでいってないからまだまだターン なる補足センサーなんです そしてよってセラは ついにそのレーダーもないピュアビジョン方式 進化さてさててスラーそのニューラルネットの機械学習が進んでどんどん性能が上がっ てきました そしてイーロンますが最近ツイートしたのはついにあのね前についているレーダーまで 外してもうカメラだけのです ねピュアビジョン方式に進化するといったんです 他社はライダーだけではですよその読み込めないデータがいろいろあるので ミリ波レーダーをつけてカメラをつけて超音波センサーを付けてもうこれでやっとやっ てるわけですよね そのセンサーの数も増える一方です出先のホンダレジェンドでもね 3種類の合計 12台のセンサーが付いていてインテルの子会社モービルアイのシステムはですね そのライダートレーダーを使うのともうカメラを使うシステムとそのまったく別々の システムを並行して走らせるのでセンサーの数もすごく多いんですよ なんとカメラ12台ライダー6台レーダー6台 合計24台+ 跳馬センサーですそれがテストが今度カメラオンリーのビジョン方式 つまり外側にある8台のカメラだけを使って完全自動運転をすると言うんです 今売ってるテスラ社にはこの前のところでレーザーがついていますけれども もう近い将来これも生産段階で鳥の突かれるっていうね可能性 また階ですでもねレーダーとってしまうって本当に大丈夫なんでしょうか twitter でね打ってすらファンに聞かれていました生産レベルでも外しちゃう んですかねこれバックアップシステムとして多いとかないんですかってその問いに良い ローは外すとだけそれつければいい また異論はこうも言っていますセンサーから潜んは要するに ビットデータなんだとでカメラからくるデータというのは ライダーとかレーダーから来るビット数よりももう何桁も多いビットレートが聴けるん だともしレーザーを使い続けるんだとしたらその vip レートですね協力にもう アップベールしないとその統合するインテグレーションをするそれを 9雑さを超えるほどですね意味はないで行ったんですよ このビジョンを解析の精度が上がる単肥にもうレーダーは遠く引き離されていると言っ ています でこうも言っていますレーダーとビジョンの意見が合わないときどうするかね それはもうビジョンの方が圧倒的に精度が高いのでその複合センサーの統合 今後データでやっていくよりもビジョンだけに絞っパンはずっといいんだとそういう ほどに完璧な自信を持って行ってるんですね でここで議論が入っている複数センサーの混合システムというのは まあジオンエントリー方式が使っているようなですねもう色んなもう センサーからくるデータをいわゆる統合するわけですよね そういうことをやらなければいけないというそういう面も10m 方式にはあるんです ね例えばでカメラだけ ライダーだけだったとしてもですよその難題のある もう センサーからですねくるデータをそのシンクロしなきゃいけないですよね ましてやセンサーの種類が違えばそれこそですねそのデータの種類もタイミングも 特性も違ってくるわけですよその中から 距離はこのセンサーでとかねその動きはこのセンサーでと回路はこのセンサーでとか そういうの のですね何らかのがですね振り分けなきゃいけないですよね そしてそのセンサーによってその ちょっとしたタイミングが違うんですよもうホントに細かい でタイミングなんですけどもずれてるわけですそれをですね なんとなくそれをインテグレーションしなきゃいけないわけですよねそうやって調整し てすりあうさてデータを基に学習機械学習をするわけですから このデータの精度や特 底にある一定の信頼性とクオリティがなければそれ放送ない方がいいということになっ ちゃうんですそしてたぶんねこれにはですねそのニューらーネットワークの機械学習 深層学習の速度をもっと格段に早めたい 加速したいという思いもあると思いますねあの道場というであの日本の風雅区 の2倍の処理能力を持つと言われるあのスーパーコンピューターでこの機械学習深層 学習に特化した スーパーコンピューターの最大値を使う でもうもっともそれに最適化したシステムするというためにはやはりその混合データ よりももうピュアーなデータ ピュアーナビジョン伏木一つに絞ったほうがおそらく 効率がいいんだと思いますでこのピアビジョン方式はこの f sd のバージョン急 で今まあまだベータ版ですけどね このベーター版のバージョンラインから取り入れられると言ってました この辺の音しっ詳しい説明も &まあ7月の後半にで開かれるといわれている の ai デーというイベントあそこで詳しく説明しているんじゃないかなと期待して います さて今日のお話をまとめてみましょう1 自動運転にはテスラが取るビジョン方式と他社が取る ジオメトリ方式という2つがあって これはカメラなのかライダーなのかとそれが本質ではないということですよね にライダーが良い悪いという問題ではないということですね ねライダーを使う除名取方式が3 d hd マップというものに依存するそこに問題 があったと でテスラには最高のニューラルネットがあるので 今までライダーにしかできないと言われていたこの奥行き それをですね ai で計算できるようになったということですね なのでカメラでもうライダー同等のデータ 得られるということでもうライダーはいらないということです でライダーやレーダーにはどうしてもカメラと同等のデータが得られないということ です ライダーには色が見えない文字が読めない レーダーには形がわからない見えないものさえあるということですね それらが無いとニューラルネットでちゃんと判断するための情報が足りないということ ですよね 例えばストップサインはどこにあってどういう状態かによってその意味や 取るべき行動ワーク 終わってくるそのようなリアルな世界の状況判断 それが正しくできないということですかそしてテスラはビジョンオンリーのピュア ビジョン方式に進化します レーダーをもそのデータの精度も低いためにその統合するメリットがついになくなって しまったということですよね それだけ手伝う b 4システムの精度は上がったということなんですそしてその方がこれからも続く 同情とかを使ってですねスーパーコンピューターを使って まあ機械学習をしていくそのスピードを指数関数的に加速していく そのために一番良い方法だということですさあおわかりいただけましたか ヒーローマスクならなぜライダー なんていらないって言ってるのか なぜ彼はライダーを使う限り未来はないと言っているのか さてあなたはどっちの自動運転に乗りたいですか ではまたん