AIインフラ競争の本質はGPU性能ではなく総合力にある｜CPU・メモリ・電力・冷却を構造的に理解する

著者：副業の宮殿｜製造業に携わる現役エンジニア。技術士試験対策書籍をKindleで複数出版。技術ブログ「副業の宮殿」にて製造業DX・AI活用の情報を発信中。

「AI競争はGPU戦争だ」という言説が広まっています。NVIDIAの株価が世界トップクラスに達し、H100・H200の争奪戦が繰り広げられた2023〜2024年を見れば、その印象は理解できます。しかしこれは半分しか正しくありません。 GPUはAIシステムの「エンジン」に相当します。高性能なエンジンを積めば速い車になるかというと、そうではない。タイヤ・ブレーキ・燃料システム・排熱が全て揃ってはじめて性能が発揮されます。AIインフラも同じです。CPU・メモリ・ネットワーク・電力・冷却の全てが揃ってはじめてGPUが動きます。なぜこの誤解が広まるかといえば、NVIDIAの利益率と時価総額が圧倒的に目立つからです。しかし勝負の舞台はGPU単体より広い。

AIインフラの全体像：GPUだけでは何も動かない

大規模AIシステムを動かすには、少なくとも5つのコンポーネントが連携して機能する必要があります。それぞれの役割を具体例で整理します。 CPU（中央演算処理装置）はオーケストラの指揮者です。データの前処理・後処理・タスクのスケジューリング・OSの管理をGPUに代わって担います。10,000枚のGPUが並んでいても、どのジョブをいつどのGPUに割り当てるかを管理するCPUが貧弱ならば、全体の稼働率が下がります。AWSのデータセンターでは1台のサーバーにGPU8枚に対してAMD EPYCやIntel Xeonが複数搭載されています。 メモリ（DRAM・HBM）は作業机の広さです。CPUに寄り添うDRAMと、GPUに直接積層されるHBM（High Bandwidth Memory）の二種類があります。LLM（大規模言語モデル）の推論では、モデルの重みデータを毎回メモリから読み出す必要があり、この転送速度がボトルネックになります。H100に搭載されるHBM3の帯域は約3.35TB/sですが、演算速度の伸びに対してメモリ帯域の伸びは遅く、差が広がっています。 ネットワーク（インターコネクト）はGPU間の高速道路です。1枚のGPUで収まらない巨大モデルのトレーニングでは、数千〜数万枚のGPUが協調して動きます。この際、GPU間でパラメータのやり取りをする通信速度が全体のスループットを制限します。NVIDIAのNVLinkとInfiniBand、BroadcomのEthernetがこの役割を担い、最大400〜800Gbpsの帯域が使われます。電力は燃料タンクです。H100一枚あたり最大700W、これを10,000枚集めると7MWになります。東京都心の中規模ビル数棟分の電力消費です。電力インフラの整備が追いつかず、新規データセンターの建設が電力契約の取得待ちで遅延するケースが実際に起きています。冷却は熱交換器です。GPU1枚が700W消費すれば700Wの熱が出ます。空冷では限界があり、液冷（液体を直接チップに接触させる直接液冷）への移行が加速しています。冷却システムのコストと複雑さはデータセンター設計の制約条件になっています。

なぜ総合力が重要なのか：一番弱い部分が全体を決める

製造業では「ボトルネック理論（Theory of Constraints）」が知られています。生産ラインの中で最も処理能力が低い工程が、全体のスループットを決めるという考え方です。AIインフラも全く同じです。 GPU演算速度が2倍になっても、メモリからのデータ供給速度が変わらなければ全体は速くならない。ネットワーク帯域が詰まれば、GPUは通信が終わるまで待ち続ける。電力が足りなければそもそも増設できない。実際のデータセンターのイメージを文章で描くと次のようになります。ラック（棚）にサーバーが縦に並び、各サーバーにはGPU8枚・CPU2個・DRAM数百GBが搭載されています。ラック間は高速光ファイバーで結ばれ、フロア全体に冷却液が循環する配管が通っています。電力は変電設備から引き込まれ、UPS（無停電電源）が瞬断を防ぎます。この全体が一つのシステムであり、どこか一箇所の弱さが全体効率に直結します。この構造を理解すると「NVIDIAのGPUが最速であること」と「NVIDIAが最終的な勝者であること」は、別の命題であることが見えてきます。

企業別の戦略比較：誰がどこを狙っているのか

AIインフラの競争は「GPU単体の性能競争」ではなく「誰がシステム全体を押さえるか」という争いです。主要プレイヤーの戦略を整理します。 NVIDIAはフルスタック戦略の典型です。GPU（H100/H200/Blackwell）だけでなく、GPU間接続のNVLink・InfiniBand（Mellanox買収）、サーバー筐体のDGXシステム、クラウド基盤のDGX Cloud、ソフトウェアのCUDAエコシステムまで、縦に全て押さえています。顧客がNVIDIAを選ぶとGPUだけでなくネットワーク・システム・ソフトを一括調達することになり、これが高い利益率と乗り換えコストの源泉です。弱点はコストです。Blackwellシステムは1ラックで数億円に達し、中小規模の導入には敷居が高い。 AMDはCPUとGPUの両輪戦略を取ります。EPYCサーバープロセッサはデータセンター向けCPU市場でIntelから急速にシェアを奪い、2024年時点で25〜30%程度のシェアに達しています。GPU側のMI300Xはメモリ容量でH100を上回る192GBのHBMを搭載し、LLM推論のワークロードで競争力を持ちます。強みは「システム全体でAMDを選べる」という提案力ですが、ソフトウェアエコシステム（ROCm）のCUDAへの劣位が依然課題です。 Google・Amazonは内製チップ＋インフラ最適化で戦います。GoogleのTPU（Tensor Processing Unit）はTensorFlowおよびJAXとの密結合で学習・推論を最適化し、GCP上でのみ使えます。AmazonのTrainiumとInferentiaは学習と推論に特化した自社チップで、AWSのサーバーに組み込んでNVIDIA依存を下げる方向に動いています。これらは汎用チップではなく自社クラウドのコスト削減と顧客囲い込みが主目的です。

AMDはなぜ注目されるのか：現実的な評価

AMDへの注目が高まる理由は「第二の選択肢」としての価値にあります。NVIDIA一社に依存することを避けたいハイパースケーラー（Microsoft・Meta・Google等）は、調達交渉力を保つためにも代替サプライヤーが必要です。AMDがMI300Xで一定の性能水準を満たしたことで、「NVIDIAを使いたいが高すぎる部分のワークロードをAMDで代替する」という実運用が始まっています。特に強みが出るのはLLM推論のワークロードです。MI300Xの192GB HBMは、大きなモデルの重みをメモリに収めるのに有利です。MetaやMicrosoftがMI300Xを推論用途で採用した事例が報告されています。一方で過大評価されているポイントもあります。学習（トレーニング）ではCUDAエコシステムへの依存が深く、主要なフレームワーク・ライブラリがNVIDIA最適化で書かれています。ROCmはCUDAの機能的な代替ですが、開発者体験の差は大きく、「NVIDIAと全く同じように使える」とはまだ言い切れない。AMDのGPUシェアは推論用途を中心に伸びているが、学習用途での置き換えには時間がかかります。

今後3年の勝敗予測：誰が何を持つのか

NVIDIAが優位を維持する最大の理由はCUDAエコシステムです。研究者・エンジニアが何年もかけて構築したコード・モデル・ワークフローがCUDAベースで動いており、これを他のプラットフォームに移行するコストは技術的にも組織的にも高い。Blackwell・Rubinと続く製品ロードマップも強力で、競合が追いつく前に次世代を投入し続けるペースは脅威です。 AMDがシェアを伸ばすのは、推論市場と特定ワークロードの置き換えという形で進むでしょう。全てをAMDに切り替えるのではなく、コスト感応度の高い推論用途をAMDで代替し、学習用途は引き続きNVIDIAを使うという二社体制が現実的な姿です。シェアは3年で15〜25%まで拡大する可能性があります。静かに有利なポジションを占めているのはクラウド企業です。GoogleとAmazonは自社チップで内製化を進めながら、NVIDIA・AMDの両方から大量調達して価格交渉力を持ちます。AIサービスの提供者として最終顧客に近い位置にいるため、インフラコストの最適化が収益に直結します。GPUを作る企業より、GPUを使って価値を売る企業が長期的に収益力を持つ構造は変わりません。

次のボトルネックは何か：戦場が移動している

AIインフラのボトルネックは既にGPUから移動しつつあります。2023年はGPUそのものの供給不足が最大の制約でした。2024〜2025年にかけてBlackwellの量産が進む中、次に顕在化しているのがメモリ帯域幅（HBM）と電力インフラです。 HBMは世界でSK Hynix・Samsung・Micronの3社しか量産できず、供給増速が演算チップの増産より遅い。GPU性能が上がっても、それを支えるHBMがなければフル性能を発揮できません。2026年以降に量産が見込まれるHBM4は帯域が倍増しますが、設備投資の規模から見て急激な増産は難しい。電力と冷却は物理的な制約として今後3〜5年の最大ボトルネックになる可能性があります。北米・欧州では新規データセンターの電力接続待ちが1〜3年に及ぶケースが出ており、これはGPUを持っていても使えない状況を意味します。原子力発電の再評価（MicrosoftのThree Mile Island出資）や、液冷インフラの整備が急務になっています。「次に投資すべきはGPUではなく電力インフラ企業だ」という投資テーマはこの構造から来ています。

まとめ：勝つのは「最も詰まりを解消できる企業」

AIはチップ戦争ではなくインフラ戦争です。GPU性能の高さは必要条件ですが十分条件ではなく、CPU・メモリ・ネットワーク・電力・冷却の全てが揃って初めてシステムは動きます。ボトルネック理論が示すように、最も弱い部分が全体のパフォーマンスを決めます。 NVIDIAの強さはGPU性能だけでなくフルスタック戦略とCUDAエコシステムにあります。AMDは第二の選択肢として推論市場で確実にシェアを拡大していますが、学習用途での完全置き換えには数年を要します。クラウド企業は内製チップと調達交渉力で静かに優位なポジションを固めています。勝つのは「最も強いGPUを作る企業」ではなく「システム全体のボトルネックを最初に解消できる企業」です。このフレームで見ると、今後3年の注目領域はHBMメモリサプライヤー・電力インフラ企業・液冷技術企業であり、純粋なGPU性能競争より広い視野が必要です。

投資視点での示唆

GPUメーカー（NVIDIA・AMD）は引き続き重要ですが、バリュエーション（PER・PSR）は既に高水準にあります。今後3年で相対的にアップサイドが大きい可能性があるのは、HBMサプライヤー（SK Hynix・Micron）、電力インフラ・電力変換機器（Vertiv・Eaton）、ネットワーク機器（Arista・Broadcom）といった「GPUを動かすために必要なコンポーネント」企業群です。また、クラウド大手（Microsoft・Google・Amazon）は内製チップ投資によるコスト削減がAI事業の利益率改善に直結しており、AI収益の受益者として確実性が高い。「GPUを作る企業」より「AIサービスを売る企業」と「GPUを動かすインフラを供給する企業」の両端が、次のフェーズでの安定した投資対象になり得ます。

【管理人の独り言】

【管理人メルマガ】副業でも稼げるヒミツ

【管理人メルマガの宣伝　終わり】

AIインフラ競争の本質はGPU性能ではなく総合力にある｜CPU・メモリ・電力・冷却を構造的に理解する

AIインフラの全体像：GPUだけでは何も動かない

なぜ総合力が重要なのか：一番弱い部分が全体を決める

企業別の戦略比較：誰がどこを狙っているのか

AMDはなぜ注目されるのか：現実的な評価

今後3年の勝敗予測：誰が何を持つのか

次のボトルネックは何か：戦場が移動している

まとめ：勝つのは「最も詰まりを解消できる企業」

投資視点での示唆

コメントを残すコメントをキャンセル

【管理人の独り言】

【管理人メルマガ】副業でも稼げるヒミツ

【管理人メルマガの宣伝 終わり】

AIインフラの全体像：GPUだけでは何も動かない

なぜ総合力が重要なのか：一番弱い部分が全体を決める

企業別の戦略比較：誰がどこを狙っているのか

AMDはなぜ注目されるのか：現実的な評価

今後3年の勝敗予測：誰が何を持つのか

次のボトルネックは何か：戦場が移動している

まとめ：勝つのは「最も詰まりを解消できる企業」

投資視点での示唆

関連記事

コメントを残す コメントをキャンセル

【管理人メルマガの宣伝　終わり】

コメントを残すコメントをキャンセル