1. NVIDIAがなぜ「帝国」になれたのか
NVIDIAの強さを「GPUが速いから」で説明するのは間違いだ。本当の強さはソフトウェアエコシステム支配にある。GPUの並列計算の原理
CPU(Central Processing Unit)は少数の高性能コアで、複雑な命令を高速に処理することに最適化されている。GPU(Graphics Processing Unit)は逆だ。数千〜数万個の単純なコアが同時に同じ演算を大量のデータに対して実行する。ゲームグラフィクスの計算(ピクセルの色を並列に計算する)に最適化した設計が、ニューラルネットワークの行列演算(大量の重みとアクティベーションの積和演算)と完全に一致した。これが「深層学習革命=GPU革命」になった理由だ。CUDAという「鎖」
2006年、NVIDIAはCUDA(Compute Unified Device Architecture)を発表した。GPU上でC言語ライクなプログラムを実行できるプラットフォームだ。当初は科学計算向けだったが、2012年のAlexNet以降、深層学習のフレームワーク(TensorFlow・PyTorch)がCUDAを標準として実装した。 これが決定的だった。研究者・エンジニアがCUDA上でコードを書き始め、数百万のモデル・ライブラリ・ツールがCUDA前提で蓄積された。他社のAIチップが「NVIDIA GPUより速い」という特性を持っていても、「CUDAコードが動かない」なら研究者は使わない。性能ではなく「移行コスト」がNVIDIAの堀を深くした。NVLink・InfiniBandによるスケールアウト
LLMのような巨大モデルを学習するには、GPU数百〜数千台を接続して協調計算させる必要がある。NVIDIAはNVLink(GPU間高速接続)・InfiniBand(ネットワーク)・NVSwitchを組み合わせた「GPU間通信インフラ」を整備し、スケールアウトでも高い効率を維持できるシステムを提供した。H100 8枚をNVLinkでつないだDGX H100は、単体でも世界最高水準のAI学習マシンだ。では、なぜ今挑戦者が現れているのか
答えは「AIの使われ方が変わったから」だ。2. 「学習中心→推論中心」へ──新アーキテクチャが必要な理由
2022年以前のAI計算の主な用途は、大規模モデルの学習だった。学習は「大量のGPUで何日もかけて処理する」バッチ処理だ。スループット(1日にどれだけ計算できるか)が最重要で、レイテンシ(1回の処理がどれだけ速いか)はさほど問題ではない。 ChatGPT登場以降、状況が根本的に変わった。ChatGPT・Claude・Geminiに毎秒何百万もの推論リクエストが来る。ユーザーは答えが返ってくるまでの遅延(レイテンシ)を感じる。返答が遅ければサービスとして使い物にならない。推論の特殊な計算特性
学習はミニバッチ(100〜1000サンプルをまとめて処理)で行われるため、GPUの並列性が最大限に活きる。しかし推論は多くの場合「1ユーザーの1リクエスト」を処理する。バッチサイズが小さいほど、GPUの数千コアの多くが遊んでしまう。これを「GPU利用率が低い」という。 さらに大規模モデルの推論では、モデルの重みパラメータ(GPT-4は推定1.8兆パラメータ)をメモリから何度も読み出す操作がボトルネックになる。演算速度より「メモリ帯域幅」が律速になるケースが増えている。GPUは演算ユニットが多い分、そのすべてにデータを供給するメモリ帯域の確保が難しい。AIエージェントとリアルタイム推論の要求
AIエージェントが普及すると、「複数のAIが連鎖的に推論する」処理が増える。あるAIの出力が次のAIの入力になる。この連鎖の遅延が積み重なると、ユーザー体験が壊れる。1ステップの推論が100msでも、10ステップ連鎖すれば1秒以上かかる。エージェント時代には「1回の推論を10ms以下で返す」という要求が現実的になる。 ロボティクス・自動運転・音声AI──リアルタイム応答が必須の分野では、この要求はさらに厳しい。「賢くても遅ければ使えない」世界だ。電力・データセンター問題
H100 1枚の消費電力は700W。8枚搭載のDGX H100は10.2kW。これを数万台並べるメガデータセンターは、原子力発電所1基分に相当する電力を消費する場合がある。電力不足・電気代・冷却コスト・CO2排出──AIインフラのスケールが、物理的な限界に近づきつつある。 「同じ推論を1/10の電力で実行できるチップ」は、サービスコストを劇的に下げる。電力効率(TOPS/W:1ワットあたりの演算回数)は、データセンター事業者にとって購買決定の最重要指標になりつつある。3. Groq ─「決定論的アーキテクチャ」という哲学
Groqが2024年に一般公開したAPIは、Llamaシリーズのモデルで毎秒500〜800トークンという、他の追随を許さないトークン生成速度を実現した。OpenAIのGPT-4が毎秒30〜50トークン程度であることを考えると、10倍以上の速度差だ。なぜか。GPUが「非決定論的」な理由
GPUで大規模モデルを実行するとき、どのコアがどのデータを処理するかは動的にスケジューリングされる。キャッシュのヒット・ミス、メモリアクセスの競合、コア間の同期待ち──これらが「ランダム」な遅延を生む。GPUの実行時間はユニットが同じでも毎回微妙に変わる。これを「非決定論的(Non-deterministic)」という。GroqのLPU(Language Processing Unit)
GroqのLPU(Language Processing Unit)は全く逆の設計思想だ。コンパイラが事前に「どのユニットがいつ何のデータを処理するか」を完全に決定し、実行時にスケジューリングが発生しない。すべての処理が時計のように正確なタイミングで実行される。これが「決定論的アーキテクチャ」だ。 メモリアクセスも事前に計画されるため、キャッシュミスが発生しない。データが必要なタイミングに必ず届いている。待ちが発生しないから、演算ユニットが常に動き続ける。この「無駄な待ち時間ゼロ」が、異次元のトークン生成速度の秘密だ。 欠点は柔軟性の低さだ。モデルの構造が変わるたびにコンパイルし直す必要がある。GPUのように「どんなモデルでもとりあえず動く」汎用性はない。しかし推論においては「特定のモデルを超高速で動かす」ことが最重要であり、汎用性より速度が価値を持つ。リアルタイムAIとの親和性
決定論的実行は「毎回同じ時間で応答が返る」という特性を持つ。音声AIでは「応答速度のばらつき」がユーザー体験を壊す。ロボティクスでは「制御ループの遅延が一定でない」ことが安全上の問題になる。Groqのアーキテクチャは、こういった「リアルタイム・低レイテンシ・予測可能」が求められる用途に構造的に向いている。4. SambaNova ─「データフロー型」でトランスフォーマーを再設計する
SambaNovaの設計思想を理解するには、「どこで処理の無駄が生じるか」を知る必要がある。フォン・ノイマン型の限界
現代のCPU・GPUはフォン・ノイマン型アーキテクチャだ。プロセッサとメモリが分離しており、計算のたびにメモリからデータを読み出し、処理し、書き戻す。この「メモリとプロセッサの往復」が、高速化の限界(メモリウォール)になっている。特にトランスフォーマーは、アテンション機構で大量のデータを何度も読み書きするため、このボトルネックが顕著だ。データフロー型とは何か
データフロー型(Dataflow Architecture)は、「データが流れるパスに演算器を配置する」発想だ。データがメモリから出てプロセッサに行き、また戻るのではなく、データが一方向に流れながら必要な演算が次々に施される。プログラムの実行順序はデータの到着順序で決まる。メモリの往復が最小化される。 SambaNovaのRDU(Reconfigurable Dataflow Unit)は、FPGAに近い発想でハードウェアをソフトウェアでデータフローに合わせて再構成できる。トランスフォーマーの計算グラフ(どの演算がどの順序で依存関係を持つか)に合わせてシリコンを「変形」させるイメージだ。 結果として、同じ演算をGPUより少ないメモリ移動で実行でき、電力効率が向上する。特に「長いコンテキスト長のトランスフォーマー推論」でGPUより優位が出やすい。企業向けのプライベートLLM・カスタムモデルのデプロイで実績を積んでいる。5. Tenstorrent ─ Jim KellerとRISC-Vが仕掛ける「AI版オープン革命」
Jim Kellerという名前を知る人は、半導体業界の歴史を知る人だ。AMD Athlon 64(x86-64命令セットの設計)、AppleのA4/A5チップ(iPhoneを劇的に高性能化)、AMD Zenアーキテクチャ(AMDをIntelに匹敵する存在に復活させた)──半導体設計の歴史的転換点に常にこの人物の名前がある。そのKellerがCEOを務めるのがTenstorrentだ。Tenstorrentのアーキテクチャ思想
TenstorrentのチップはGrayskull・Wormholeシリーズで知られる。設計の特徴は「多数の小型プロセシングコアをメッシュ状に配置し、コア間通信を設計の中心に置く」ことだ。GPUが「均質な大量コア」なのに対し、Tenstorrentはコアがネットワークのノードのようにつながり、必要なデータパスを動的に構成する。 特筆すべきはRISC-Vをベースにしていること、そして設計の一部をオープンソースで公開していることだ。CUDAへの対抗策:ソフトウェアスタックのオープン化
NVIDIAのCUDA支配に対抗する正面突破は難しい。コードを移行するコストが高すぎる。TenstorrentのアプローチはCUDAへの直接対抗より、「CUDAに依存しないオープンな計算スタック」の普及だ。 TT-BUDAというコンパイラフレームワークをオープンソースで提供し、PyTorchモデルを自動的にTenstorrentのハードウェアで実行できるよう変換する。「CUDAのコードを書き直す必要がない」という入口を作ることで、採用障壁を下げる戦略だ。 これはARM(RISCアーキテクチャ)がx86に対して採った戦略に似ている。ARMはCPUコアの設計ライセンスを広く供与し、多数のメーカーがARM系チップを作ることで、スマートフォン市場でx86を駆逐した。Tenstorrentが「AI計算のARM」になれるかどうかは未知数だが、Kellerの経歴と戦略は注目に値する。RISC-Vという「規制リスク回避」の側面
RISC-VはオープンソースのISA(命令セットアーキテクチャ)だ。企業が特許料を払う必要がなく、設計を自由に変更できる。米中対立で半導体サプライチェーンが政治問題になる時代、「誰も所有していないアーキテクチャ」の戦略的価値が高まっている。中国の半導体企業がRISC-Vに積極投資しているのも、制裁リスクの回避が理由の一つだ。6. Cerebras ─「ウェハー1枚で全部作る」という狂気の合理性
Cerebrasは全挑戦者の中で最も「常識外れ」な設計を採用している。しかしその「常識外れ」は深い工学的合理性に基づいている。なぜ半導体は「ダイス(小さな正方形)」に切るのか
半導体ウェハー(直径300mmのシリコン円盤)は、製造後に小さな正方形(ダイ)に切断される。一般的なCPUダイは数百mm²、大型GPUでも800mm²程度だ。なぜウェハーを丸ごとチップにしないのか。答えは「歩留まり(Yield)」だ。 半導体製造では、ウェハー上に必ず欠陥(デフェクト)が発生する。ウェハーが大きいほど欠陥の数は増える。ダイが大きいほど、1つの欠陥がダイ全体を不良品にする確率が高くなる。このため大きなダイは歩留まりが急激に悪化し、コストが爆発する。「ダイを小さく切る」のは、1枚のウェハーから多数の良品を取れるようにするためだ。CerebrasのWSE(Wafer Scale Engine)
Cerebrasはこの常識を逆転させた。直径300mmのウェハーを切断せず、丸ごと1枚のチップ(WSE:Wafer Scale Engine)にする。WSE-3(2024年)の数字は衝撃的だ:面積46,225mm²(H100の57倍)、5兆7000億個のトランジスタ、900,000個のAIコア、44GBのSRAM(高速オンチップメモリ)。 歩留まり問題はどう解決したか。「欠陥があるコアはOFFにする冗長設計」だ。WSE-3のコアが90万個あるうち、一部に欠陥があっても、そのコアを無効化して動作するよう設計されている。故障した部分は存在しないものとして扱い、残りのコアでタスクを分担する。1枚のウェハーを「すべてのコアが完璧に動く」精度で作る必要がない。この発想の転換が、ウェハースケールを実現可能にした。なぜこれがGPUクラスタに勝てるのか
大規模LLMを推論させるとき、モデルは複数のGPUに分割して格納される。GPU間の通信(NVLinkやInfiniBand)がボトルネックになる。「GPU1がGPU2の計算結果を待つ」という同期待ちが発生する。GPUを増やすほどこの通信オーバーヘッドが増える。 WSEは1枚のシリコンに全コアが統合されているため、コア間通信が「チップ内の配線」で完結する。チップ外への通信が発生しない。44GBのSRAMはDRAMより100倍以上速い(帯域幅)。結果として、通信ボトルネックが構造的に存在しない。 実際、Cerebrasは「GPTシリーズの学習をH100クラスタより速く実行した」という実績を複数公開している。OpenAIも初期の研究でCerebrasのシステムを利用したことが知られている。CS-3とクラウドサービス
CerebrasのCS-3はWSE-3を搭載したコンピュータシステムだ。Cerebras Cloudとしてクラウドアクセスも提供している。「WSEをAPIで使える」サービスで、主に高速推論・大規模研究向けに展開している。 WSEの弱点は製造コストと柔軟性だ。1枚のウェハーを専用製造するコストは通常のチップとは桁が違い、量産効果も出にくい。また「特定のモデルに最適化」することとウェハースケールの汎用化の両立は難しい。研究・特定用途での高速推論に強みがあるが、「すべてのAIワークロードに使える汎用チップ」としての普及は課題だ。7. AIチップ業界は「第二のCPU戦争」に入った
1980年代から1990年代、CPUのアーキテクチャ戦争が繰り広げられた。- Intelのx86(CISC:複雑命令セット)対RISC陣営
- DEC Alphaの高速RISC
- Motorola 68000系(MacintoshのCPU)
- IntelのItanium(EPIC:明示的並列命令コンピューティング)──大規模な投資にもかかわらず市場で失敗
- ARMのRISCがモバイルで勝利し、x86がデスクトップ・サーバーで残存
8. 今後どうなるか ─ 学習と推論の分裂、エッジの台頭
学習市場:NVIDIAの優位は続くが絶対ではない
GPT-5・Gemini Ultra 2世代以降の学習には、依然として大規模GPUクラスタが必要になる。NVIDIAのBlackwellアーキテクチャ(B200)は学習性能でH100の3〜5倍を達成しており、競合が追いつくまでに相当の時間が必要だ。CUDAエコシステムの慣性も強い。 しかしGoogle TPU・AWS Trainium2・Microsoft Maia──大手クラウド企業の独自チップは着実に性能を上げており、「自社モデルの学習を自前チップで」という比率が増えている。NVIDIAの独占は崩れないが、支配力は低下する方向だ。推論市場:最も競争が激しい戦場
推論市場こそが今後の主戦場だ。ChatGPT・Claude・Geminiに来る推論リクエストは今後10倍・100倍に増える。この推論を安く・速く・省エネで処理できるチップに巨大な需要がある。 Groq・Cerebras・特定モデル向けのASIC(Google TPU推論用・AWS Inferentia)──「最高品質の推論」より「低コスト・低遅延の推論」を求める市場が急速に拡大する。エッジ推論:スマートフォン・ロボット・IoTの革命
AIをクラウドから端末(スマートフォン・ロボット・自動車・産業機器)に移すエッジ推論は、消費電力・プライバシー・通信コスト・リアルタイム性のすべてで優位がある。Qualcomm・Apple・MediaTek・Intel・AMDがエッジAIチップを競って開発している。フィジカルAI(ロボット・自動運転)の制御に必要な「低遅延・低消費電力推論」はエッジでしか実現しにくい用途だ。9. 日本への影響 ─「AIチップ戦争」で日本の勝機はどこか
日本はロジック半導体の最先端競争(3nm・2nm)では台湾・韓国に大きく遅れを取った。しかしAIチップ戦争の全体像を見ると、日本が勝てる領域が見えてくる。製造装置・材料のボトルネック
AIチップがどんな設計であっても、製造には共通の装置・材料が必要だ。東京エレクトロン(洗浄・成膜装置)・SCREENホールディングス(洗浄装置)・信越化学・SUMCO(シリコンウェハー)・JSR・東京応化(フォトレジスト)──これらなしには、TSMC(台湾)も先端チップを作れない。AIチップ競争が激化するほど、材料・装置の需要は増える。冷却・電源・実装技術
H100クラスタ・WSE-3が発する熱は膨大だ。液冷・浸漬冷却(チップを液体に浸す方式)の技術開発が急務だ。日本の冷却システムメーカー(高砂製作所・SMC等)、電源装置(日置電機・TDK等)、パッケージング・実装技術(イビデン・新光電気工業等)は世界水準の技術を持つ。光通信・NVLink代替技術
チップ間通信・データセンター内ネットワークで光通信の重要性が高まっている。電気配線の限界を光で超えるシリコンフォトニクス分野で、日本の光通信部品メーカー(住友電工・フジクラ等)は強みを持つ。ロボティクスとエッジAIの統合
日本が強みを持つ産業ロボット・工作機械・精密機械に、エッジAIチップが統合される流れは避けられない。ファナック・安川・川崎重工が搭載するAIチップが「日本設計」であることは、長期的な産業戦略として重要だ。産業機械のAI化において、「チップも機械も日本産」というバリューチェーンを構築できれば、他国には真似しにくい競争優位になる。おわりに:正解がまだない時代の重要性
NVIDIAが帝国を築けたのは、「深層学習=行列演算=GPU」という等式が10年以上成立したからだ。しかしAIの計算需要が多様化する今、この等式が唯一の正解ではなくなりつつある。 Groqが示した「決定論的実行」、Cerebrasが証明した「ウェハースケールの合理性」、Tenstorrentが提唱する「オープンAIコンピューティング」、SambaNovaが実装した「データフロー最適化」──これらは単なる「NVIDIAの代替」ではなく、AIコンピューティングの多様な未来形だ。 どれが「勝つ」かは、用途・市場・エコシステムの発展次第だ。しかし確実に言えることがある。「AIの計算はGPUでしかできない」という時代は、静かに、しかし確実に終わりつつある。本記事は公開情報をもとにした技術分析です。特定製品・投資を推奨するものではありません。





