AIチップの世界で今、静かな革命が起きている。
「AIにはNVIDIAのGPUが必要だ」という常識は、2022年以降に急激に強化された。ChatGPTの爆発的普及、LLMの学習に必要な膨大な計算、その計算を担えるのはNVIDIAのH100しかない──そういった構図が一般化した。NVIDIAの時価総額は3兆ドルを超え、GPUの調達待ち期間は1年を超えるケースもあった。
しかし、この「GPU一強」の構図に根本的な疑問を投げかける企業が存在する。それがCerebras(セレブラス)だ。
Cerebrasが採用したのは、半導体業界の常識を正面から無視したアプローチだ。「ウェハーを切らずに1枚丸ごとチップにする」──これはなぜ誰も試みなかったのか、そしてなぜ今それが重要なのか。その答えを理解することは、AI計算の「本当のボトルネック」を理解することに直結する。
1. Cerebrasとは何か ─「普通」を拒否した企業
Cerebrasは2016年にシリコンバレーで設立された。共同創業者のAndrew Feldmanは「AIの計算を根本から再設計しなければ、現在のアプローチは壁に当たる」という確信のもとでこの会社を立ち上げた。
Wafer Scale Engine(WSE)とは
通常の半導体製造プロセスを思い浮かべてほしい。直径300mmのシリコン円盤(ウェハー)に回路を焼き付け、その後ダイヤモンドブレードで「ダイス」と呼ばれる小さな正方形に切断する。切断されたダイ一つひとつが、私たちが「チップ」と呼ぶものだ。
Cerebrasのアプローチは違う。切らない。
直径300mmのウェハーをそのまま1枚のチップとして使う。これがWSE(Wafer Scale Engine)だ。
最新のWSE-3のスペックを見ると、その「異常性」がわかる:
- 面積:46,225mm²(NVIDIAのH100は814mm²──約57倍の面積)
- トランジスタ数:5兆7000億個
- AIコア数:90万個
- オンチップSRAM:44GB
- メモリ帯域幅:毎秒21ペタバイト(21,000TB/s)
これは単なる「大きいGPU」ではない。設計思想が根本的に異なるAI専用アクセラレータだ。
GPUではない──AI専用設計とは何か
NVIDIAのGPUは、もともとゲームグラフィクスの描画処理のために設計された。何千もの演算コアが同じ処理を大量のデータに対して並列実行する「SIMD(Single Instruction, Multiple Data)」型の設計だ。これが深層学習の行列演算と偶然に一致し、AI学習に使われるようになった。
Cerebrasは最初からAI計算だけを想定して設計した。AIの計算グラフ(どの演算がどの順序でどのデータを必要とするか)に合わせて、コアの配置・メモリの配置・通信路の設計がなされている。「汎用性」は最初から捨てている。その分、AIに特化した性能を追求する。
2. NVIDIAとCerebras ─「強さ」の質が違う
NVIDIAの本当の強さはCUDAにある
NVIDIAを「GPU性能が高い会社」と理解するのは正確ではない。NVIDIAの本当の強さは「CUDAエコシステム」にある。
CUDA(Compute Unified Device Architecture)は2006年にNVIDIAが公開したプログラミングプラットフォームだ。「GPUの演算コアをC言語ライクなプログラムから使える」ようにするソフトウェアレイヤーだ。これが深層学習フレームワーク(TensorFlow・PyTorch)の標準実装環境になった結果、世界中の研究者・エンジニアが書いたコードの大部分が「CUDA前提」で動いている。
「NVIDIA製GPUより速いチップを作った」としても、そのチップで既存のPyTorchコードがそのまま動かなければ、エンジニアは使わない。移行コストが障壁になる。これがNVIDIAの「堀(moat)」だ。性能の堀ではなく、ソフトウェアエコシステムの堀だ。
Cerebrasが乗り越えるべき壁
Cerebrasもこのエコシステム問題を認識している。そのためPyTorchモデルをWSE上で動かすためのソフトウェア変換ツール・コンパイラを提供し、「コードを書き直す必要なく動く」環境を整えている。しかし完全な互換性はまだ発展途上だ。
Cerebrasが勝負しやすいのは「ゼロから最適化を設計できる場面」、つまり推論インフラを一から構築する企業・研究機関だ。既存のNVIDIA環境を「そのまま移行する」用途では、摩擦が大きい。
3. なぜ速いのか ─ AIのボトルネックは「計算」ではない
ここが本記事で最も重要な部分だ。「AIは計算量が多いから、演算が速いチップが必要だ」という理解は、2025年時点では半分間違っている。
「演算器が暇で待っている」問題
現代のAI推論を詳しく観察すると、奇妙な現象が起きている。演算コアが計算している時間より、データが来るのを待っている時間の方が長いケースがある。これを「memory-bound(メモリ律速)」と呼ぶ。
なぜこんなことが起きるのか。GPT-4のような大規模モデルは数千億のパラメータ(重み)を持つ。これらのパラメータは、推論のたびにメモリから読み出す必要がある。読み出しにかかる時間が、実際の計算時間を上回る。つまり、どれだけ演算コアを増やしても、データが供給されなければコアは待つだけだ。
これを工場に例えると分かりやすい。工作機械(演算コア)が1000台あっても、原材料(データ)を運ぶフォークリフト(メモリ帯域幅)が10台しかなければ、工作機械の990台が常に待機状態になる。フォークリフトを増やすか、工場内で原材料を循環させる仕組みを作るかが、本当の解決策だ。
GPU間通信という「もう一つのボトルネック」
大規模モデルは1枚のGPUには収まらない。GPT-4クラスのモデルを推論するには、8枚・16枚・場合によっては数百枚のGPUにモデルを分割して格納する。このとき発生するのが「GPU間通信」だ。
Tensor Parallel(テンソル並列)やPipeline Parallel(パイプライン並列)といった手法で分散推論を行うとき、GPU Aの計算結果をGPU Bに送り、GPU Bが計算してGPU Cに送る──という通信が繰り返し発生する。
NVIDIAはこの問題をNVLink(GPU間高速接続)とNVSwitch(スイッチング)で解決しようとしている。NVLink v4の帯域幅は1GPU間で900GB/sだ。確かに高速だが、チップ外への通信であることに変わりはない。レイテンシがチップ内通信より桁違いに大きく、同期待ちが発生する。
HBMアクセスのレイテンシ
NVIDIAのH100はHBM(High Bandwidth Memory)を使っている。HBMはGDDR6より5〜10倍のメモリ帯域幅を持つ高速メモリだ。しかしGPUの演算コアから見ると、HBMは「チップの外」にある。電気信号がチップを出て、HBMチップに届き、データが戻ってくる──この往復時間(レイテンシ)が数百ナノ秒かかる。
SRAMはHBMより100倍以上のアクセス速度を持つが、面積とコストの制約でGPUに搭載できる量は限られる(H100は50MB程度)。
Cerebrasのアプローチ:「通信距離を物理的に消す」
Cerebrasが採用した解決策は明快だ。「チップを大きくして、すべてをチップ内に収める」。
WSE-3の44GBのSRAMはすべてオンウェハー(チップ内)にある。モデルのパラメータをこのSRAMに格納すれば、チップ外へのアクセスが発生しない。コアがデータを読み出すのにかかる時間が、HBMアクセスの100分の1以下になる。
さらに、90万個のコアが1枚のウェハー上に存在するため、コア間通信がウェハー上の配線で完結する。NVLinkのような「チップをまたぐ通信」が不要だ。コア間通信のレイテンシがフォトニクス速度(光速に近い電気信号速度)のシリコン配線で実現される。
これを工場の例で言い換えると:工場(チップ)を巨大化して、原材料倉庫(SRAM)も製造ラインも全部工場内に収めた。原材料のトラック輸送(HBMアクセス)が不要になり、工場間の部品配送(GPU間通信)もなくなる。すべてがフロア内で完結する。
4. 「FLOPSの時代」から「通信の時代」へ
AI業界は長い間、「FLOPS(Floating Point Operations Per Second:1秒あたりの浮動小数点演算回数)」を性能の指標として崇拝してきた。「FLOPS多いほど賢いAIが動く」という単純な図式だ。
しかし2023〜2024年にかけて、この図式が崩れ始めた。
なぜFLOPSが指標として限界を迎えたか
理論FLOPS値が高くても、実際の有効スループット(実際にどれだけの計算が完了したか)が理論値の30〜50%にしかならないケースが報告されるようになった。残りの時間は、前述のメモリ待ち・通信待ち・同期待ちに消えている。
「1秒に1京回演算できます」というスペックは、データが1秒に1京回分届くときだけ意味がある。現実には届かないから、コアが待っている。
推論市場で「本当の性能指標」が変わった
推論用途で実際に使われる指標は変わっている。
- tokens/sec(毎秒生成できるトークン数):ユーザーが感じる速度に直結する
- TTFT(Time To First Token):入力を受け取ってから最初の単語が出るまでの時間
- wattあたりのtokens/sec:電力コストを考えたときの実効性能
- 1000トークンあたりのコスト:サービス事業者が最も気にする指標
これらの指標でCerebrasは際立った数字を示している。Llamaシリーズの推論で毎秒2000〜2500トークンという数字を公表しており、これはNVIDIA H100を使った標準的な実装の5〜10倍以上だ。
5. 推論市場という「次の主戦場」
なぜ推論が学習より重要になるのか
AI計算には大きく2つのフェーズがある。「学習(Training)」と「推論(Inference)」だ。
学習は新しいモデルを作るときに1回(もしくは定期的に)行う。GPT-5の学習には数カ月と数千枚のGPUが必要だが、完成すれば同じモデルが何億回も推論に使われる。
推論はユーザーがChatGPTやClaudeに質問するたびに発生する。1日数億回のリクエストが来れば、推論の計算量は学習の計算量をはるかに上回る。市場規模として、2026年以降は推論コストが学習コストを超えるという予測がある。
AIエージェントが推論需要を爆発させる
現在の「チャットAI」は、1リクエストに1回の推論だ。しかしAIエージェント(自律的に複数のタスクを実行するAI)は、1つの目標に対して何十回・何百回もの推論を連鎖させる。「調べて・考えて・ツールを使って・また考えて・結果を出す」という繰り返しだ。
1リクエストが10回の推論になれば、推論需要は10倍に膨らむ。AIエージェントが普及する世界では、推論インフラへの投資が学習インフラへの投資を桁違いに上回る可能性がある。
ロボティクスとリアルタイム推論
ロボットがAIの「脳」を使うとき、応答速度は生命線だ。工場ラインのロボットが次の動作を判断するのに1秒待てば、ラインが止まる。自動運転車が障害物を認識してから0.5秒後に判断が出ても遅すぎる。
Cerebrasのような低レイテンシ推論チップは、ロボティクス・自動運転・工場自動化という「リアルタイムAI」の用途で強みを持つ。「精度が高いAI」より「速く答えが出るAI」が重要な世界では、アーキテクチャの選択が変わる。
6. AI半導体業界の多様化 ─「正解」は一つではない
Cerebras以外にも、異なるアプローチでNVIDIAに挑む企業が増えている。それぞれの設計思想の違いを整理すると、「AI計算の何を最適化するか」という問いへの、複数の答えが見えてくる。
NVIDIA(H100/B200):汎用並列計算の王者
数千〜数万の演算コアを並列実行。CUDAエコシステムによるソフトウェア支配。学習・推論ともに対応。HBMによる高帯域幅メモリ。弱点は「通信とメモリウォール」と電力消費の大きさ。
Cerebras(WSE-3):「通信距離ゼロ」のアーキテクチャ
ウェハー1枚=1チップで90万コアを統合。44GBのオンチップSRAMで通信ボトルネック解消。推論速度とtokens/wattで突出。弱点はコスト・汎用性の低さ・製造難易度。
Groq(LPU):決定論的実行で待ち時間ゼロ
コンパイラが実行スケジュールを完全に事前決定。ランタイムでの待ちが発生しない決定論的アーキテクチャ。tokens/secで業界最速クラスを実現。弱点は柔軟性の低さとモデル変更時のコンパイルコスト。
SambaNova(RDU):データフロー型でメモリ移動を最小化
フォン・ノイマン型の「メモリ↔演算器往復」を廃し、データが演算器を流れる設計。トランスフォーマーの計算グラフに最適化。電力効率が高い。企業向けカスタムモデルに強み。
Tenstorrent(Grayskull/Wormhole):RISC-Vとオープン戦略
Jim Keller(AMD Zen・Apple A4設計者)がCEO。RISC-VベースでオープンソースのAIコンピューティング基盤を目指す。CUDAへの対抗軸をソフトウェアのオープン化で作る。「AI計算のARM」を狙う長期戦略。
Google TPU(v5):自社モデル専用の最適化
Google内部でGeminiの学習・推論に使用。外部へはCloud TPUとして提供。特定のモデルアーキテクチャへの深い最適化。NVIDIA依存を排除するための自社開発戦略。
Amazon Trainium/Inferentia:クラウドネイティブの最適化
AWS上でAIワークロードを動かすユーザー向けのカスタムチップ。Inferentiaは推論特化、Trainiumは学習に対応。AWSのエコシステムとの統合が強み。
これらの多様性は「誰が勝つか」の競争ではなく、「用途によって最適解が異なる」という構造の表れだ。デスクトップPCにx86が、スマートフォンにARMが最適化されたように、AI計算も用途別に最適なアーキテクチャが棲み分ける可能性が高い。
7. 今後の展望 ─ AI計算の「通信問題」時代
データセンター電力問題が設計を変える
AI用データセンターの消費電力は急増している。1棟あたり100MW〜1GWという規模感が現実になりつつある。これは中規模都市の電力消費に相当する。電力会社の対応が追いつかず、データセンター建設の許可が「電力接続の空き待ち」でボトルネックになっている地域もある。
この状況で「wattあたりのtokens/sec」は、単なる効率指標ではなく「どれだけのAI処理をこのデータセンターで実行できるか」の直接的な制約になる。電力効率が高いチップは「より多くのAIサービスを同じ電力で動かせる」という競争優位をサービス事業者に与える。
推論特化チップの専門分化
今後5年で「学習用チップ(Training Chip)」と「推論用チップ(Inference Chip)」の分化が進む可能性がある。学習では依然としてNVIDIA GPUが有力だが、推論では電力効率・低レイテンシ・コストが支配的な選択基準になり、Cerebras・Groq・Amazon Inferentia・Google TPUが有利になる場面が増える。
一つのサービスが「学習はH100クラスタで・推論はCerebras CS-3で」という異種混合インフラを使うことが、今後の標準的な構成になるかもしれない。
エッジ推論の台頭
クラウドから端末(スマートフォン・ロボット・自動車・産業機器)に推論を移す「エッジ推論」は、レイテンシ・プライバシー・通信コストのすべてで優位がある。ロボットが1ms以内に次の動作を判断するには、クラウドに問い合わせていては間に合わない。Qualcomm・Apple・MediaTek・Intelのエッジチップが、ロボティクス・自動運転でのAI推論を担う。
エッジとクラウドで異なるチップが使われる世界では、「どのクラウドチップが最強か」という問いより「アプリケーションに最適なチップをどこで動かすか」という設計判断が重要になる。
NVIDIA一強の時代は終わるのか
断言できる答えはない。しかし構造的な変化は起きている。
学習市場ではNVIDIAの優位は当面続く。CUDAエコシステムの慣性・最高水準の学習性能・NVLinkによるスケールアウト能力──これらを短期間で逆転することは難しい。
しかし推論市場・エッジ市場・特定ドメイン最適化市場では、NVIDIA以外のチップが特定の用途で「より合理的な選択」になるケースが増えている。GPUは万能だが、万能であることが特定用途での最高効率を妨げる。
「AIチップは一種類で十分」という時代は終わりつつある。用途・要求・コスト・電力制約に応じて、複数のアーキテクチャが組み合わさる「AI半導体エコシステム」の時代が来る。その中でCerebrasが担うポジションは、「通信ボトルネックの壁を物理的に突き破る」役割だ。
おわりに:「ウェハーを切らない」という逆転の発想
半導体業界は70年にわたって「ダイを小さくして歩留まりを上げる」方向に最適化してきた。微細化・小型化・高密度化──ムーアの法則はその方向性の象徴だ。
Cerebrasはその方向性を逆転させた。「小さく切るのが当然」という業界の常識に「なぜ切るのか」と問い、「切らなければ良い」という答えを出した。歩留まり問題は冗長設計で解決し、熱問題は専用冷却システムで解決し、製造コストは推論性能の圧倒的な優位で正当化する。
この「常識への逆問」こそ、技術革新の本質だ。AIチップの次の10年は、「誰が一番速いGPUを作るか」ではなく「誰が通信・メモリ・電力という本当のボトルネックを解決するか」という競争になる。そしてその競争に、最も正面から挑んでいる企業の一つがCerebrasだ。
本記事は公開情報をもとにした技術分析です。特定製品・投資を推奨するものではありません。