自動運転の記事やブログを見ているとセンサーの話題がよく出てきます
それもライダーなのかカメラなのかそういう比較ですキジの多くはライダーの方が3
次元空間は測るのに性格だ
ライダーの方が自動運転には向いているそういうふうに書いてあります
しかしテスラはライダーを言っ
一切使いません4つ考えどころかイーロンマスクはライダーなんて使うのは頭が悪いと
言い切ってしまいます
以前テスラの自動運転とライダーケイトレベルファイブはどっちが先それを動画でご
紹介しました
今回はそれをもう少し踏み込んでテスラがライダーを使わない
尾錠方式でそれを完全自動
運転のレベル5をどうやって大勢しようとしているのか
なぜライダーを使わなくても大丈夫なのかその辺を突っ込んでみたいと思います

誰か子どもってるわけこういうこともできるんです

me
ハチアブねー
今日はもっとテスラ社員で経営コンサルタントのバーと小さです
今日のお話はこれまず第一は幼い
今なぜてつら方式はライダーを使わなくても大丈夫なのか
3番ライダーミリ波レーダーの欠点
そして4万けせらはピュアビジョン奉仕型4
か一番おさらいですまず最初に自動運転の基本となる技術のところでテスラが使う方式
とその他全ての会社が使う方式とそのさあ
その違いそれをですねこの動画でご紹介していますのでぜひ見てみてください
ここで一応サクッとお申しますねまずテスラは b
情報式そして他者はジオメトリー方式
この2つでしたね鉄だが取る方式はビジョン方式と言ってですね
外側にある8台のカメラ木の葉時代のカメラで撮った動画データですねこれを主な情報
園としていますそれに加えて車の前方にあるレーザー
そして車を取り囲むように
に12台の超音波センサーが付いていますその特徴はライダーを一切使っていないと
いうことです
なので自動運転を比較するときそのフォーカスはですねだいたいカメラとライダー
どっちがいいのっていうことに
注意が行きがちなんですけれども実はこのケスラーを取るビジョン方式と他社が取る
ジオメトリ方式この最大の違いはですね
そこではないんですねビジョン方式は実写
事情メートル方式は市時ケセラのビジョン報酬を支えているのはこのカメラで撮った
実写映像です
ゲイ
こうバージョンのオートパイロットは今のところまだ正繁ですつまり
写真ですでも今限定的にテストをしているベーター版の fsd
これはですねビデオ映像つまり動画なんです
対してライダー8ミリ波レーダーを使うこのジオメトリ方式は cg の世界だと思っ
ていただけると
分かりやすいですただ実写で見ているわけではないのでもう vr をかぶってですね
その cg の中を走っていると思っていただくといいと思います
テスラビジョン方式でレベル5を目指すテツナがビジョン方式を使っている最大の目的

このレベルファイブと呼ばれる完全自動運転を目指しているからです
テスラはレベル5を達成できるのはこの日情報色しかないと考えています
他社は城名トレイ方式でエベル4で十分だと考えている
他者をとっているこの10m 方式はこの自動運転の開発当初
ねこのぐらいライダーがあまりに
に正確なのでこの方は開発が早いと思われていたんですね
しかしそこには落とし穴がありましたつまりライダーで撮ったデータでそのままで運転
するわけではないんですねそれはもうあらかじめ作った3 d の高精細のマップ
データ
その中とを照合してですねそのデータの
彼を走るということなんです色ずっと前からですねライダーなんて高いものを使うのも
頭悪いと言ってますそしてテスラの音のもステイというですね2019年に行われた
自動運転の技術を倒壊してイベントありましたそこでいいローンはですね
ライダーを使う企業は破滅する等で行ったんですその政府から
elon はアンチライダーだというなんかイメージがついちゃったんですけども実は
そんなことはありません
実際いようが創業しようであるそのスペース x そこではですねその例えば
ドッキングする時とかにまあ
スペース x 独自開発のライダーを使っているくらいなんです
なのでいい論はライダーが嫌いなのではなくてですね
自動運転には必要がないと考えているんです
2番なぜテスラ方式はライダーがなくても大丈夫なのか
それはカメラさえあれば大丈夫だからでしょうか
確かに入ってする
ですねカメラから情報があれば大丈夫だと考えていますけれどもそれはカメラが優秀だ
からではないんですそれはカメラで撮る実写の動画映像のデータがあってそれに強調
高性能の ai が合わさってという条件がつくんですこの ai を

ルーラルネットワークまたはニューラルネットと言います
このニューラルネットの良し悪しによってカメラからくる映像データで大丈夫なのか
もしくはダメなのかこれが分かれてくるんですこのカメラの動画データと
ニューラルネットワークの ai とこのコンビネーションですね分かりやすく例える

カメラは目ニューラルネットはノーと考えてください
そうするとわかりやすいと思いますそう考えるとどうですか
何かに似てると思いませんかそうです人間はそうやって運転しているんです
人間用インできているうんてるという世界は見て
判断するというビジョンを式でできているんです
なのでてスラーのビジョン方式はカメラで見て
ニューラルネットで判断するそういう方式なんです
しかしカメラで撮るビデオ映像にはライダーにはない欠点がありました
それはカメラで撮る映像というのは基本
2 d
2次元なんですよね2 d とは縦と横の世界
3 d とは縦と横と奥行きの世界ですね
つまり通常のカメラで撮影する動画はデータとして奥行きという情報が欠けているん
ですや北駅データなんてね自動運転に入りませんよです
そんなことはありませんではテスラの三条方式はどのようにしてその奥行きを見ている
んでしょうか
現行市販されているオートパイロットいうのはその車の前についているレーダーでまぁ
図ってそれを使っているところがありますしかしそれに頼っているわけではないのです
ではどうやって
その奥駅を見ているんでしょうかそれは先ほど言った
ニューラルネットですえっ
らいが動画から見てるんですかはいそうなんです
テスラの ai チームが開発したのにはいくつかの画期的な技術がありますひとつに
はテスラです数どうライダー
つまり疑似ライダーと呼ばれるその2 d の動画データから ai が3 d の
世界を計算するという技術です例えばこのようには2 d の
動画データからこのように3 d の細かい物体シミュレーションができるそういう
技術を開発したんです
まずはこの疑似ライダーがあるのでライダーはいらないと言う
一つの理由になっていますそしてこのサンプル画像を見てみてください
まあ上のところはですねまずは2 d で観たところでまぁ車の止まっている
っていうねそういうところに意識してますよね真ん中の画像はこの色のグラデーション
なってますよね
恋今のところはですねまぁ遠くにある
真ん中の紫とかピンクのところこれは中間ですね
そして手前にあるのはクリーム色みたいになってます
これはですねその2 d のビデオ画像から
ないが奥行き距離を計算しているということです
下の画像はそのそれはデータをもとにまあスカンポくですねその1関係を割り出してい
ますこれに加えてそのてスラーのビジョン方式の強さの一つにですね
この8台のカメラで撮った動画をですねスティッチんぐと呼ばれる合成で360度いっ
1枚の動画画像にしているということですこれは iphone やスマホのパノラマ
人てますけれどもこれは写真ではなくてリアルタイムの動画データだということです
そしてこの360度つながったデータを基に計算しているのがこのバー在留というこの
二巻ですね
これによって自分の位置関係を計
させていますでこれを見てひょっとしては思ってませんかあのほら bmw とかね
もう二巻ビューだってありますよって見てますよって大手ませんか
ねでもねあれはね全然違うんですよあれは単純に映像をつなげてですね
モニターに出しているだけなんですねデータ化してないんですでテスは場合このカメラ
で撮った映像
をもとにですねその ai が画像データ分析処理をしてそのまるで地図の中にいる
ように自分の位置を見てですねこれによって特に交差点とかで曲がり方とかそれを正確
に安全に走ることができます
こうすることによってジオメトリ方式があの3 d hd マップの中をショーをする
そのようなことが同じようなことができているということです
ねえケースなるニューラルネットワークすごいですよね
もっとありますサゲドライダーは3 d でデータが計測できるといいますよね
でもけっすだのシステムは4 d で判断できるんです
じゃあその4 d っていったいなんでしょうかそれは
時間という軸を持っているということです
例えばこのゴミ収集車のような物体があってですよ
その向こう側から人が歩いてきたとしますでこの車の向こう側に隠れてしまうと見え
なくなりますよねしかしケスラーのニューラルネットはこの人をですね人として認識し

この歩いている方向と
スピードこれを時間軸として捉えています
なので難病にこの左側に出てくるというこの予想を立てることができるのです
もちろんこの車の向こうでね方向転換をすることもあるかもしれませんけれども
通常だとこっちの方に出てきますよねでこの時この車が単なる物体ではなく壁とかでは
なくゴミ収集車だということもちゃんと認識してるんですこのように物体の縦横奥行き
そして場所それを見ているだけではなくてそれが何なのかそしてどう動いているのか
それも考慮に入れた上で計算シミュレーションをしているということです
そしてカメラで撮影した画像
いうのはピクセルというまあ日本でいうとがそうというね
10でできていますこのピクセルを例えばみーピクセルかける new ピクセルの4
ピクセルを一つの単位として
1ピクセルずつずらしていきますそうやって動きを計算してるんですその中で自分は
どの方向にどの速度で動いて
のかそれは勝っているわけですからそれなのかー
もしくはそのも写っている物体もしくは1それが動いているのかその両方なのか
その辺を考慮いちゃんと入れて解析して分析して
判断をするんですこうやってテスラニューラルネットはいろんな形でですね三次元でも
の音を認識してそこのにいる場所もの道路
人なのかものなのかそれは自分はどこにいて何がどう動いているのか
これを全部解析して
自分の次の動きを判断しますこれは単にカメラで実車をとっているからといってできる
ことではないんですこの世界最高峰のニューラルネットが裏で動いているからこそ可能
になる世界ですそしてこのニューレッドが正しく判断をできる
その精度をどんどんどんどんあげるこれや
機械学習であり深層学習ですその機械学習の大基になるデータ
それを360度の動画データを毎日世界中で走っている
100万台を超えるその車からですね
毎日データを収集していますそれこそ何百万キロというデータ
が入ってくるですこれによって日々頭がよくなる
ゲスラーのニューらー net これがあるからこそ良い論は
ライダーなんていらない大江で言えるんです
これは世界中他のどの企業にもできないことです3ライダー8ミリ波レーダーの欠点と
テスラの特異点テスラのカメラは人間の目の役割をしていると言いました
ではこの目であるカメラにできてライダー8ミリ波レーダーにできないことそれは何
でしょうか
基本的にライダーやレーダーには色が認識できません
文字を読むこともできません特にライダーは光の反射に影響されますので黒や濃紺
そして濃い色のものや車が見え抜く事があります
カメラで撮る動画映像なればその点は問題ありません
例えばライダーで見る stop sign ての大体こんな感じです
この形や大きさ
そしてどれぐらいの棒の上にくっついているだからこれはきっと stop sign
だろうと ai に判断させる
それぐらいのことはできるとしますしかしこのような場合
ストップサインが下には様々な指示や条件が書かれているそういうことありますよね
このような標識はもうお手上げですライダーまた濃い霧
や雨の中でも影響されますミリ波レーダーは電波を使うので基本的に形がわかりません
また人間の体のように電波を吸収してしまう物体も見えなくなります
その点ライダーはある程度細い形や大きさもわかるのでそれが人なのかどうかとかで
大人なのか子供なのかも判断でき
ますこのように二夜目エントリー方式を採用する場合複数のセンサーにはそれぞれ不
得意な部分と得意の部分がありますのでその出っ張り引っ込みを補い合う必要があるん
ですね
なので例のホンダレジェンドもこんなに沢山のセンサーが付いています
でも他社のシステムようにもっとたくさんのセンサーをついている本を託す
あります当然コストもかさみますそれもあって
ホンダレジェンドは通常のバージョンとそのレベル iii のバージョンではですね
約400万円も彼だが違うんですね
相撲アメリカだったその差額だけで寝て砂1台買えるぐらいです
その点テスラのメインセンサーはカメラです
基本的に人間の目に見えるものはカメラでも認識できますそれは形大きさ色そして
ニューラルネットを使えば文字も読めます例えば同じ道路標識でもその
状態によって意味が変わったリトル日報道が変わったりすることはありますよね
分かりやすい例でみると例えばこのストップサインですね例えばその気にちょっと隠れ
ていたり
弁慶がちょっと剥がれていたりそういうのであるじゃないですかそれでもストップ歳7
ばどうかというのは判断できなければいけません例えば
スクールバスの横っちょについている stop sign あれはですねを張ってと
入れていれば止まれもしボディにピタッとくっついてれば無視していいんですもしくは
固定されてないもの
例えばこの工事のですねセキュリティ予算は持っている手で持っているストップ西これ
は上に持ち上げていれば
止まれ
下に応募していれば通っていいってことですよね
ネチョの踏切やゲートについているストップサインもその状態や位置によって意味が
変わってきます
このような状態をカメラで見てニューラルネットで判断できなければいけませんけ
セラーのシステムはビジョン方式なので
この優秀なニューラーネッドと組み合わせること
は得意分野ですでも言われるかも知れませんよね掃除をメドリ方式の車になってカメラ
付いてるんでしょ
はいカメラに撮ったデータでねまあそれは色とかね佐村判断できるかもしません
でもそのもカメラでですよでそこまでニューラルネットできちっとした
細かい判断が出来るのならば
それこそライダーなんて必要なくなるんですそこまでいってないからまだまだターン
なる補足センサーなんです
そしてよってセラは
ついにそのレーダーもないピュアビジョン方式
進化さてさててスラーそのニューラルネットの機械学習が進んでどんどん性能が上がっ
てきました
そしてイーロンますが最近ツイートしたのはついにあのね前についているレーダーまで
外してもうカメラだけのです
ねピュアビジョン方式に進化するといったんです
他社はライダーだけではですよその読み込めないデータがいろいろあるので
ミリ波レーダーをつけてカメラをつけて超音波センサーを付けてもうこれでやっとやっ
てるわけですよね
そのセンサーの数も増える一方です出先のホンダレジェンドでもね
3種類の合計
12台のセンサーが付いていてインテルの子会社モービルアイのシステムはですね
そのライダートレーダーを使うのともうカメラを使うシステムとそのまったく別々の
システムを並行して走らせるのでセンサーの数もすごく多いんですよ
なんとカメラ12台ライダー6台レーダー6台
合計24台+
跳馬センサーですそれがテストが今度カメラオンリーのビジョン方式
つまり外側にある8台のカメラだけを使って完全自動運転をすると言うんです
今売ってるテスラ社にはこの前のところでレーザーがついていますけれども
もう近い将来これも生産段階で鳥の突かれるっていうね可能性
また階ですでもねレーダーとってしまうって本当に大丈夫なんでしょうか
twitter でね打ってすらファンに聞かれていました生産レベルでも外しちゃう
んですかねこれバックアップシステムとして多いとかないんですかってその問いに良い
ローは外すとだけそれつければいい
また異論はこうも言っていますセンサーから潜んは要するに
ビットデータなんだとでカメラからくるデータというのは
ライダーとかレーダーから来るビット数よりももう何桁も多いビットレートが聴けるん
だともしレーザーを使い続けるんだとしたらその vip レートですね協力にもう
アップベールしないとその統合するインテグレーションをするそれを
9雑さを超えるほどですね意味はないで行ったんですよ
このビジョンを解析の精度が上がる単肥にもうレーダーは遠く引き離されていると言っ
ています
でこうも言っていますレーダーとビジョンの意見が合わないときどうするかね
それはもうビジョンの方が圧倒的に精度が高いのでその複合センサーの統合
今後データでやっていくよりもビジョンだけに絞っパンはずっといいんだとそういう
ほどに完璧な自信を持って行ってるんですね
でここで議論が入っている複数センサーの混合システムというのは
まあジオンエントリー方式が使っているようなですねもう色んなもう
センサーからくるデータをいわゆる統合するわけですよね
そういうことをやらなければいけないというそういう面も10m 方式にはあるんです
ね例えばでカメラだけ
ライダーだけだったとしてもですよその難題のある
もう
センサーからですねくるデータをそのシンクロしなきゃいけないですよね
ましてやセンサーの種類が違えばそれこそですねそのデータの種類もタイミングも
特性も違ってくるわけですよその中から
距離はこのセンサーでとかねその動きはこのセンサーでと回路はこのセンサーでとか
そういうの
のですね何らかのがですね振り分けなきゃいけないですよね
そしてそのセンサーによってその
ちょっとしたタイミングが違うんですよもうホントに細かい
でタイミングなんですけどもずれてるわけですそれをですね
なんとなくそれをインテグレーションしなきゃいけないわけですよねそうやって調整し
てすりあうさてデータを基に学習機械学習をするわけですから
このデータの精度や特
底にある一定の信頼性とクオリティがなければそれ放送ない方がいいということになっ
ちゃうんですそしてたぶんねこれにはですねそのニューらーネットワークの機械学習
深層学習の速度をもっと格段に早めたい
加速したいという思いもあると思いますねあの道場というであの日本の風雅区
の2倍の処理能力を持つと言われるあのスーパーコンピューターでこの機械学習深層
学習に特化した
スーパーコンピューターの最大値を使う
でもうもっともそれに最適化したシステムするというためにはやはりその混合データ
よりももうピュアーなデータ
ピュアーナビジョン伏木一つに絞ったほうがおそらく
効率がいいんだと思いますでこのピアビジョン方式はこの f sd のバージョン急
で今まあまだベータ版ですけどね
このベーター版のバージョンラインから取り入れられると言ってました
この辺の音しっ詳しい説明も
&まあ7月の後半にで開かれるといわれている
の ai デーというイベントあそこで詳しく説明しているんじゃないかなと期待して
います
さて今日のお話をまとめてみましょう1
自動運転にはテスラが取るビジョン方式と他社が取る
ジオメトリ方式という2つがあって
これはカメラなのかライダーなのかとそれが本質ではないということですよね
にライダーが良い悪いという問題ではないということですね
ねライダーを使う除名取方式が3 d hd マップというものに依存するそこに問題
があったと
でテスラには最高のニューラルネットがあるので
今までライダーにしかできないと言われていたこの奥行き
それをですね ai で計算できるようになったということですね
なのでカメラでもうライダー同等のデータ
得られるということでもうライダーはいらないということです
でライダーやレーダーにはどうしてもカメラと同等のデータが得られないということ
です
ライダーには色が見えない文字が読めない
レーダーには形がわからない見えないものさえあるということですね
それらが無いとニューラルネットでちゃんと判断するための情報が足りないということ
ですよね
例えばストップサインはどこにあってどういう状態かによってその意味や
取るべき行動ワーク
終わってくるそのようなリアルな世界の状況判断
それが正しくできないということですかそしてテスラはビジョンオンリーのピュア
ビジョン方式に進化します
レーダーをもそのデータの精度も低いためにその統合するメリットがついになくなって
しまったということですよね
それだけ手伝う b
4システムの精度は上がったということなんですそしてその方がこれからも続く
同情とかを使ってですねスーパーコンピューターを使って
まあ機械学習をしていくそのスピードを指数関数的に加速していく
そのために一番良い方法だということですさあおわかりいただけましたか
ヒーローマスクならなぜライダー
なんていらないって言ってるのか
なぜ彼はライダーを使う限り未来はないと言っているのか
さてあなたはどっちの自動運転に乗りたいですか
ではまたん