NVIDIA帝国に挑む異端児たち ― Groq・Cerebras・Tenstorrentが再定義するAIコンピューティング

「AIにはNVIDIAのGPUが必要だ」──この命題は2025年現在、半分は正しく、半分は過去の話になりつつある。確かにNVIDIAのH100・H200・B200はLLMの学習において依然として他の追随を許さない。しかし「AIを動かす」という行為が学習から推論（Inference）に重心を移しつつある今、GPUの大量並列計算という設計哲学が最適解かどうか、業界内部で静かに問い直されている。 Groqは決定論的アーキテクチャで世界最速のトークン生成を実現した。Cerebrasはウェハー1枚丸ごとチップという「常識外れ」で通信ボトルネックを消し去った。Tenstorrentは半導体界のレジェンド・Jim KellerとRISC-Vオープン戦略でCUDA支配に風穴を開けようとしている。SambaNovaはデータフロー型アーキテクチャでトランスフォーマーの処理を再定義した。本記事は「誰が勝つか」という馬券予想ではない。「なぜこれほど設計思想が異なる挑戦者が同時に現れているのか」という問いへの、アーキテクチャレベルの答えだ。

1. NVIDIAがなぜ「帝国」になれたのか

NVIDIAの強さを「GPUが速いから」で説明するのは間違いだ。本当の強さはソフトウェアエコシステム支配にある。

GPUの並列計算の原理

CPU（Central Processing Unit）は少数の高性能コアで、複雑な命令を高速に処理することに最適化されている。GPU（Graphics Processing Unit）は逆だ。数千〜数万個の単純なコアが同時に同じ演算を大量のデータに対して実行する。ゲームグラフィクスの計算（ピクセルの色を並列に計算する）に最適化した設計が、ニューラルネットワークの行列演算（大量の重みとアクティベーションの積和演算）と完全に一致した。これが「深層学習革命＝GPU革命」になった理由だ。

CUDAという「鎖」

2006年、NVIDIAはCUDA（Compute Unified Device Architecture）を発表した。GPU上でC言語ライクなプログラムを実行できるプラットフォームだ。当初は科学計算向けだったが、2012年のAlexNet以降、深層学習のフレームワーク（TensorFlow・PyTorch）がCUDAを標準として実装した。これが決定的だった。研究者・エンジニアがCUDA上でコードを書き始め、数百万のモデル・ライブラリ・ツールがCUDA前提で蓄積された。他社のAIチップが「NVIDIA GPUより速い」という特性を持っていても、「CUDAコードが動かない」なら研究者は使わない。性能ではなく「移行コスト」がNVIDIAの堀を深くした。

NVLink・InfiniBandによるスケールアウト

LLMのような巨大モデルを学習するには、GPU数百〜数千台を接続して協調計算させる必要がある。NVIDIAはNVLink（GPU間高速接続）・InfiniBand（ネットワーク）・NVSwitchを組み合わせた「GPU間通信インフラ」を整備し、スケールアウトでも高い効率を維持できるシステムを提供した。H100 8枚をNVLinkでつないだDGX H100は、単体でも世界最高水準のAI学習マシンだ。

では、なぜ今挑戦者が現れているのか

答えは「AIの使われ方が変わったから」だ。

2. 「学習中心→推論中心」へ──新アーキテクチャが必要な理由

2022年以前のAI計算の主な用途は、大規模モデルの学習だった。学習は「大量のGPUで何日もかけて処理する」バッチ処理だ。スループット（1日にどれだけ計算できるか）が最重要で、レイテンシ（1回の処理がどれだけ速いか）はさほど問題ではない。 ChatGPT登場以降、状況が根本的に変わった。ChatGPT・Claude・Geminiに毎秒何百万もの推論リクエストが来る。ユーザーは答えが返ってくるまでの遅延（レイテンシ）を感じる。返答が遅ければサービスとして使い物にならない。

推論の特殊な計算特性

学習はミニバッチ（100〜1000サンプルをまとめて処理）で行われるため、GPUの並列性が最大限に活きる。しかし推論は多くの場合「1ユーザーの1リクエスト」を処理する。バッチサイズが小さいほど、GPUの数千コアの多くが遊んでしまう。これを「GPU利用率が低い」という。さらに大規模モデルの推論では、モデルの重みパラメータ（GPT-4は推定1.8兆パラメータ）をメモリから何度も読み出す操作がボトルネックになる。演算速度より「メモリ帯域幅」が律速になるケースが増えている。GPUは演算ユニットが多い分、そのすべてにデータを供給するメモリ帯域の確保が難しい。

AIエージェントとリアルタイム推論の要求

AIエージェントが普及すると、「複数のAIが連鎖的に推論する」処理が増える。あるAIの出力が次のAIの入力になる。この連鎖の遅延が積み重なると、ユーザー体験が壊れる。1ステップの推論が100msでも、10ステップ連鎖すれば1秒以上かかる。エージェント時代には「1回の推論を10ms以下で返す」という要求が現実的になる。ロボティクス・自動運転・音声AI──リアルタイム応答が必須の分野では、この要求はさらに厳しい。「賢くても遅ければ使えない」世界だ。

電力・データセンター問題

H100 1枚の消費電力は700W。8枚搭載のDGX H100は10.2kW。これを数万台並べるメガデータセンターは、原子力発電所1基分に相当する電力を消費する場合がある。電力不足・電気代・冷却コスト・CO2排出──AIインフラのスケールが、物理的な限界に近づきつつある。「同じ推論を1/10の電力で実行できるチップ」は、サービスコストを劇的に下げる。電力効率（TOPS/W：1ワットあたりの演算回数）は、データセンター事業者にとって購買決定の最重要指標になりつつある。

3. Groq ─「決定論的アーキテクチャ」という哲学

Groqが2024年に一般公開したAPIは、Llamaシリーズのモデルで毎秒500〜800トークンという、他の追随を許さないトークン生成速度を実現した。OpenAIのGPT-4が毎秒30〜50トークン程度であることを考えると、10倍以上の速度差だ。なぜか。

GPUが「非決定論的」な理由

GPUで大規模モデルを実行するとき、どのコアがどのデータを処理するかは動的にスケジューリングされる。キャッシュのヒット・ミス、メモリアクセスの競合、コア間の同期待ち──これらが「ランダム」な遅延を生む。GPUの実行時間はユニットが同じでも毎回微妙に変わる。これを「非決定論的（Non-deterministic）」という。

GroqのLPU（Language Processing Unit）

GroqのLPU（Language Processing Unit）は全く逆の設計思想だ。コンパイラが事前に「どのユニットがいつ何のデータを処理するか」を完全に決定し、実行時にスケジューリングが発生しない。すべての処理が時計のように正確なタイミングで実行される。これが「決定論的アーキテクチャ」だ。メモリアクセスも事前に計画されるため、キャッシュミスが発生しない。データが必要なタイミングに必ず届いている。待ちが発生しないから、演算ユニットが常に動き続ける。この「無駄な待ち時間ゼロ」が、異次元のトークン生成速度の秘密だ。欠点は柔軟性の低さだ。モデルの構造が変わるたびにコンパイルし直す必要がある。GPUのように「どんなモデルでもとりあえず動く」汎用性はない。しかし推論においては「特定のモデルを超高速で動かす」ことが最重要であり、汎用性より速度が価値を持つ。

リアルタイムAIとの親和性

決定論的実行は「毎回同じ時間で応答が返る」という特性を持つ。音声AIでは「応答速度のばらつき」がユーザー体験を壊す。ロボティクスでは「制御ループの遅延が一定でない」ことが安全上の問題になる。Groqのアーキテクチャは、こういった「リアルタイム・低レイテンシ・予測可能」が求められる用途に構造的に向いている。

4. SambaNova ─「データフロー型」でトランスフォーマーを再設計する

SambaNovaの設計思想を理解するには、「どこで処理の無駄が生じるか」を知る必要がある。

フォン・ノイマン型の限界

現代のCPU・GPUはフォン・ノイマン型アーキテクチャだ。プロセッサとメモリが分離しており、計算のたびにメモリからデータを読み出し、処理し、書き戻す。この「メモリとプロセッサの往復」が、高速化の限界（メモリウォール）になっている。特にトランスフォーマーは、アテンション機構で大量のデータを何度も読み書きするため、このボトルネックが顕著だ。

データフロー型とは何か

データフロー型（Dataflow Architecture）は、「データが流れるパスに演算器を配置する」発想だ。データがメモリから出てプロセッサに行き、また戻るのではなく、データが一方向に流れながら必要な演算が次々に施される。プログラムの実行順序はデータの到着順序で決まる。メモリの往復が最小化される。 SambaNovaのRDU（Reconfigurable Dataflow Unit）は、FPGAに近い発想でハードウェアをソフトウェアでデータフローに合わせて再構成できる。トランスフォーマーの計算グラフ（どの演算がどの順序で依存関係を持つか）に合わせてシリコンを「変形」させるイメージだ。結果として、同じ演算をGPUより少ないメモリ移動で実行でき、電力効率が向上する。特に「長いコンテキスト長のトランスフォーマー推論」でGPUより優位が出やすい。企業向けのプライベートLLM・カスタムモデルのデプロイで実績を積んでいる。

5. Tenstorrent ─ Jim KellerとRISC-Vが仕掛ける「AI版オープン革命」

Jim Kellerという名前を知る人は、半導体業界の歴史を知る人だ。AMD Athlon 64（x86-64命令セットの設計）、AppleのA4/A5チップ（iPhoneを劇的に高性能化）、AMD Zenアーキテクチャ（AMDをIntelに匹敵する存在に復活させた）──半導体設計の歴史的転換点に常にこの人物の名前がある。そのKellerがCEOを務めるのがTenstorrentだ。

Tenstorrentのアーキテクチャ思想

TenstorrentのチップはGrayskull・Wormholeシリーズで知られる。設計の特徴は「多数の小型プロセシングコアをメッシュ状に配置し、コア間通信を設計の中心に置く」ことだ。GPUが「均質な大量コア」なのに対し、Tenstorrentはコアがネットワークのノードのようにつながり、必要なデータパスを動的に構成する。特筆すべきはRISC-Vをベースにしていること、そして設計の一部をオープンソースで公開していることだ。

CUDAへの対抗策：ソフトウェアスタックのオープン化

NVIDIAのCUDA支配に対抗する正面突破は難しい。コードを移行するコストが高すぎる。TenstorrentのアプローチはCUDAへの直接対抗より、「CUDAに依存しないオープンな計算スタック」の普及だ。 TT-BUDAというコンパイラフレームワークをオープンソースで提供し、PyTorchモデルを自動的にTenstorrentのハードウェアで実行できるよう変換する。「CUDAのコードを書き直す必要がない」という入口を作ることで、採用障壁を下げる戦略だ。これはARM（RISCアーキテクチャ）がx86に対して採った戦略に似ている。ARMはCPUコアの設計ライセンスを広く供与し、多数のメーカーがARM系チップを作ることで、スマートフォン市場でx86を駆逐した。Tenstorrentが「AI計算のARM」になれるかどうかは未知数だが、Kellerの経歴と戦略は注目に値する。

RISC-Vという「規制リスク回避」の側面

RISC-VはオープンソースのISA（命令セットアーキテクチャ）だ。企業が特許料を払う必要がなく、設計を自由に変更できる。米中対立で半導体サプライチェーンが政治問題になる時代、「誰も所有していないアーキテクチャ」の戦略的価値が高まっている。中国の半導体企業がRISC-Vに積極投資しているのも、制裁リスクの回避が理由の一つだ。

6. Cerebras ─「ウェハー1枚で全部作る」という狂気の合理性

Cerebrasは全挑戦者の中で最も「常識外れ」な設計を採用している。しかしその「常識外れ」は深い工学的合理性に基づいている。

なぜ半導体は「ダイス（小さな正方形）」に切るのか

半導体ウェハー（直径300mmのシリコン円盤）は、製造後に小さな正方形（ダイ）に切断される。一般的なCPUダイは数百mm²、大型GPUでも800mm²程度だ。なぜウェハーを丸ごとチップにしないのか。答えは「歩留まり（Yield）」だ。半導体製造では、ウェハー上に必ず欠陥（デフェクト）が発生する。ウェハーが大きいほど欠陥の数は増える。ダイが大きいほど、1つの欠陥がダイ全体を不良品にする確率が高くなる。このため大きなダイは歩留まりが急激に悪化し、コストが爆発する。「ダイを小さく切る」のは、1枚のウェハーから多数の良品を取れるようにするためだ。

CerebrasのWSE（Wafer Scale Engine）

Cerebrasはこの常識を逆転させた。直径300mmのウェハーを切断せず、丸ごと1枚のチップ（WSE：Wafer Scale Engine）にする。WSE-3（2024年）の数字は衝撃的だ：面積46,225mm²（H100の57倍）、5兆7000億個のトランジスタ、900,000個のAIコア、44GBのSRAM（高速オンチップメモリ）。歩留まり問題はどう解決したか。「欠陥があるコアはOFFにする冗長設計」だ。WSE-3のコアが90万個あるうち、一部に欠陥があっても、そのコアを無効化して動作するよう設計されている。故障した部分は存在しないものとして扱い、残りのコアでタスクを分担する。1枚のウェハーを「すべてのコアが完璧に動く」精度で作る必要がない。この発想の転換が、ウェハースケールを実現可能にした。

なぜこれがGPUクラスタに勝てるのか

大規模LLMを推論させるとき、モデルは複数のGPUに分割して格納される。GPU間の通信（NVLinkやInfiniBand）がボトルネックになる。「GPU1がGPU2の計算結果を待つ」という同期待ちが発生する。GPUを増やすほどこの通信オーバーヘッドが増える。 WSEは1枚のシリコンに全コアが統合されているため、コア間通信が「チップ内の配線」で完結する。チップ外への通信が発生しない。44GBのSRAMはDRAMより100倍以上速い（帯域幅）。結果として、通信ボトルネックが構造的に存在しない。実際、Cerebrasは「GPTシリーズの学習をH100クラスタより速く実行した」という実績を複数公開している。OpenAIも初期の研究でCerebrasのシステムを利用したことが知られている。

CS-3とクラウドサービス

CerebrasのCS-3はWSE-3を搭載したコンピュータシステムだ。Cerebras Cloudとしてクラウドアクセスも提供している。「WSEをAPIで使える」サービスで、主に高速推論・大規模研究向けに展開している。 WSEの弱点は製造コストと柔軟性だ。1枚のウェハーを専用製造するコストは通常のチップとは桁が違い、量産効果も出にくい。また「特定のモデルに最適化」することとウェハースケールの汎用化の両立は難しい。研究・特定用途での高速推論に強みがあるが、「すべてのAIワークロードに使える汎用チップ」としての普及は課題だ。

7. AIチップ業界は「第二のCPU戦争」に入った

1980年代から1990年代、CPUのアーキテクチャ戦争が繰り広げられた。

Intelのx86（CISC：複雑命令セット）対RISC陣営
DEC Alphaの高速RISC
Motorola 68000系（MacintoshのCPU）
IntelのItanium（EPIC：明示的並列命令コンピューティング）──大規模な投資にもかかわらず市場で失敗
ARMのRISCがモバイルで勝利し、x86がデスクトップ・サーバーで残存

この歴史から何が学べるか。「計算の正解」は存在せず、用途によって最適なアーキテクチャが違う。デスクトップPCにはx86が勝ち、スマートフォンにはARMが勝ち、スーパーコンピュータにはRISC系が使われ続けた。同じ「プロセッサ」でも用途が違えば最適解が変わる。 AIチップも同じ状況に入りつつある。「LLMの学習」ではNVIDIA GPUが今後も強い可能性が高い。しかし「リアルタイム推論」「エージェント連鎖推論」「エッジデバイスでの推論」「特定ドメイン推論」──これらの用途ごとに、Groq型・Cerebras型・Tenstorrent型・専用ASIC型が棲み分ける可能性がある。 AIの「正解アーキテクチャ」はまだ決まっていない。これが今の挑戦者たちに「戦う余地」を与えている。

8. 今後どうなるか ─ 学習と推論の分裂、エッジの台頭

学習市場：NVIDIAの優位は続くが絶対ではない

GPT-5・Gemini Ultra 2世代以降の学習には、依然として大規模GPUクラスタが必要になる。NVIDIAのBlackwellアーキテクチャ（B200）は学習性能でH100の3〜5倍を達成しており、競合が追いつくまでに相当の時間が必要だ。CUDAエコシステムの慣性も強い。しかしGoogle TPU・AWS Trainium2・Microsoft Maia──大手クラウド企業の独自チップは着実に性能を上げており、「自社モデルの学習を自前チップで」という比率が増えている。NVIDIAの独占は崩れないが、支配力は低下する方向だ。

推論市場：最も競争が激しい戦場

推論市場こそが今後の主戦場だ。ChatGPT・Claude・Geminiに来る推論リクエストは今後10倍・100倍に増える。この推論を安く・速く・省エネで処理できるチップに巨大な需要がある。 Groq・Cerebras・特定モデル向けのASIC（Google TPU推論用・AWS Inferentia）──「最高品質の推論」より「低コスト・低遅延の推論」を求める市場が急速に拡大する。

エッジ推論：スマートフォン・ロボット・IoTの革命

AIをクラウドから端末（スマートフォン・ロボット・自動車・産業機器）に移すエッジ推論は、消費電力・プライバシー・通信コスト・リアルタイム性のすべてで優位がある。Qualcomm・Apple・MediaTek・Intel・AMDがエッジAIチップを競って開発している。フィジカルAI（ロボット・自動運転）の制御に必要な「低遅延・低消費電力推論」はエッジでしか実現しにくい用途だ。

9. 日本への影響 ─「AIチップ戦争」で日本の勝機はどこか

日本はロジック半導体の最先端競争（3nm・2nm）では台湾・韓国に大きく遅れを取った。しかしAIチップ戦争の全体像を見ると、日本が勝てる領域が見えてくる。

製造装置・材料のボトルネック

AIチップがどんな設計であっても、製造には共通の装置・材料が必要だ。東京エレクトロン（洗浄・成膜装置）・SCREENホールディングス（洗浄装置）・信越化学・SUMCO（シリコンウェハー）・JSR・東京応化（フォトレジスト）──これらなしには、TSMC（台湾）も先端チップを作れない。AIチップ競争が激化するほど、材料・装置の需要は増える。

冷却・電源・実装技術

H100クラスタ・WSE-3が発する熱は膨大だ。液冷・浸漬冷却（チップを液体に浸す方式）の技術開発が急務だ。日本の冷却システムメーカー（高砂製作所・SMC等）、電源装置（日置電機・TDK等）、パッケージング・実装技術（イビデン・新光電気工業等）は世界水準の技術を持つ。

光通信・NVLink代替技術

チップ間通信・データセンター内ネットワークで光通信の重要性が高まっている。電気配線の限界を光で超えるシリコンフォトニクス分野で、日本の光通信部品メーカー（住友電工・フジクラ等）は強みを持つ。

ロボティクスとエッジAIの統合

日本が強みを持つ産業ロボット・工作機械・精密機械に、エッジAIチップが統合される流れは避けられない。ファナック・安川・川崎重工が搭載するAIチップが「日本設計」であることは、長期的な産業戦略として重要だ。産業機械のAI化において、「チップも機械も日本産」というバリューチェーンを構築できれば、他国には真似しにくい競争優位になる。

おわりに：正解がまだない時代の重要性

NVIDIAが帝国を築けたのは、「深層学習＝行列演算＝GPU」という等式が10年以上成立したからだ。しかしAIの計算需要が多様化する今、この等式が唯一の正解ではなくなりつつある。 Groqが示した「決定論的実行」、Cerebrasが証明した「ウェハースケールの合理性」、Tenstorrentが提唱する「オープンAIコンピューティング」、SambaNovaが実装した「データフロー最適化」──これらは単なる「NVIDIAの代替」ではなく、AIコンピューティングの多様な未来形だ。どれが「勝つ」かは、用途・市場・エコシステムの発展次第だ。しかし確実に言えることがある。「AIの計算はGPUでしかできない」という時代は、静かに、しかし確実に終わりつつある。

本記事は公開情報をもとにした技術分析です。特定製品・投資を推奨するものではありません。