NVIDIAが進めるHBF(High Bandwidth Flash)とは何か? GPU競争からメモリ競争へ変わるAIインフラの未来

グラップラー刃牙

AIブームはGPU需要を爆発させた。NVIDIAのH100・H200が品薄になり、クラウド各社がデータセンターに何千億円もの投資を続けている。しかし2025年になって、業界の焦点が少しずつ変わり始めている。問題はもはや「GPUが速いかどうか」ではなく、「データをどれだけ速くGPUに届けられるか」になってきたのだ。

その文脈で急浮上しているキーワードがHBF(High Bandwidth Flash)だ。NVIDIAが次世代アーキテクチャで本格採用を検討しているとされるこの技術は、AI半導体の競争軸をGPUからメモリ・ストレージへとシフトさせる可能性を秘めている。本記事では、HBFの概要から業界への影響まで徹底解説する。

目次

まずHBM(High Bandwidth Memory)の限界から理解する

HBMとは何か

HBM(High Bandwidth Memory)とは、GPUやAIアクセラレータに直接積層されるDRAMのことだ。通常のDDR5メモリとは異なり、チップの真横(または真上)に縦方向に積み重ねることで、極めて広い「データの道(バンド幅)」を実現している。

【通常のDRAM構成】
GPU ←—————細いバス—————→ DRAM
     (転送速度:数十GB/s)

【HBM構成】
GPU ←=====超広バンド幅===== HBM
     (転送速度:数TB/s)

H100 GPUに搭載されているHBM3eは最大3.35TB/sのバンド幅を持つ。これはLLMの学習・推論において、モデルの重みパラメータを高速に読み書きするために不可欠だ。

なぜHBMは高価なのか

HBMの製造は非常に複雑だ。シリコンチップを縦に積み重ねる「TSV(Through-Silicon Via)」技術が必要で、歩留まりが低く製造コストが高い。H100 1枚に搭載されているHBM3eの原価だけで数十万円に達するとも言われている。

AIモデル巨大化によるHBMの容量不足

さらに深刻な問題がある。GPT-4クラスのモデルはパラメータ数が1兆を超えるとも推定されており、これをすべてHBMに載せることはできない。推論時に問題となるのがKVキャッシュだ。

KVキャッシュとは、Transformerモデルが長いテキストを処理する際に、過去のトークン情報(Key-Value)をメモリに保持しておく仕組みだ。コンテキスト長が長くなるほど(128K、1Mトークンなど)、このキャッシュに必要なメモリ量は爆発的に増える。

H100のHBM容量は80GB。しかし大規模なバッチ処理や長コンテキスト推論では、これでも足りなくなることが増えている。「GPUは速い、でもメモリが足りない」という状況が現実になっている。

HBF(High Bandwidth Flash)とは何か

NANDフラッシュをGPUの近くに置く

HBFは、NAND型フラッシュメモリ(スマートフォンやSSDに使われる不揮発性メモリ)を、GPUやAIアクセラレータの近傍に配置し、高速なデータアクセスを実現するアーキテクチャだ。

【HBFが描く階層メモリ構造】

AIモデルの重み(大容量)
       ↕  超高速アクセス
┌─────────────────┐
│    HBF(NAND Flash) │  ← 数百GB〜TB級・低コスト
└─────────────────┘
       ↕  高速アクセス
┌─────────────────┐
│    HBM(DRAM)      │  ← 数十GB・超高速
└─────────────────┘
       ↕  超高速アクセス
┌─────────────────┐
│    GPU演算コア       │
└─────────────────┘

HBMとSSDとの違い

比較項目 HBM(DRAM) HBF(NAND) 通常SSD
バンド幅 数TB/s 数十〜数百GB/s(目標) 数GB/s
容量 数十GB 数百GB〜数TB 数TB〜
コスト/GB 非常に高い 中程度 低い
揮発性 揮発性(電源断でデータ消失) 不揮発性 不揮発性
GPUからの距離 直接積層 近傍配置(目標) PCIe経由・遠い

HBFが狙うのは「HBMの容量不足を補いつつ、通常SSDより圧倒的に速い」という中間層のポジションだ。

NVIDIAの狙い:Vera Rubinとストレージ直結GPU

NVIDIAが次世代アーキテクチャ「Vera Rubin」で本格的に進めているとされるのがGPU Direct Storageの進化版だ。

GPU Direct Storageとは

従来、GPUがストレージ(SSD等)のデータを読むには「SSD → CPUメモリ → GPU」という経路を通る必要があった。CPU経由のデータ転送はボトルネックになる。GPU Direct Storageはこの迂回路をなくし、「SSD → GPU」の直接転送を実現する技術だ。

【従来の転送経路】
SSD → CPUメモリ(RAM) → GPU
      ↑ここがボトルネック

【GPU Direct Storage】
SSD ———————————————→ GPU
      ↑CPUを介さず直接転送

HBFはこの思想をさらに推し進め、NANDをGPUの極めて近くに配置することで、さらなる高速化を狙う。

AIサーバーのコスト削減効果

現在、大規模AIサーバーのコスト構成はHBM(DRAM)が大きな比率を占める。HBFを使うことで、「あまり頻繁にアクセスしないデータ(モデルの一部、KVキャッシュの古い部分等)」をHBMからHBFにオフロードできる。

これはAIサーバーのコストを大幅に下げる可能性がある。HBM 80GBサーバーを、「HBM 40GB + HBF 数TB」で置き換えることができれば、同等以上のパフォーマンスを低コストで実現できるかもしれない。

Cerebrasとの比較:スケールアップ vs スケールアウト

AIアクセラレータの戦略として、NVIDIAとCerebrasは対照的なアプローチを取っている。

項目 NVIDIA(スケールアウト) Cerebras(スケールアップ)
基本戦略 多数のGPUをネットワークで接続 1枚のウェハー全体をチップにする
チップサイズ 通常のダイサイズ(数百mm²) ウェハー全体(46,000mm²)
メモリ帯域 HBM + NVLinkでノード間通信 オンチップSRAMで超高速
メモリ容量 HBMで制限あり → HBFで拡張へ SRAMは大容量化が困難
コスト HBMが高コスト要因 ウェハー製造が高コスト
柔軟性 GPU枚数で細かくスケール可能 スケールの粒度が大きい

HBFはNVIDIAのスケールアウト戦略における「メモリ容量不足」という弱点を補う技術として機能する。一方Cerebrasはオンチップメモリを極端に増やすアプローチを採るため、HBFの恩恵を受ける構造が異なる。現時点では、汎用性とエコシステムの強さでNVIDIAが圧倒的優位だが、Cerebrasは特定の大規模学習タスクで存在感を示している。

KioxiaとSandiskにとっての意味

なぜNANDメーカーが注目されるのか

HBFの中核はNANDフラッシュだ。世界のNANDフラッシュ市場を支えているのは、Samsung・SK Hynix・Micron・Kioxia(旧東芝メモリ)Sandisk(WD傘下)の5社だ。

これまでNANDメーカーはスマートフォン・PC・データセンターSSD向けに事業を展開してきた。しかしHBFが本格普及すれば、AI推論インフラ向けのNAND需要という巨大な新市場が生まれる

投資家が注目するポイント

  • HBMはSK HynixとSamsungがほぼ独占しているが、HBFではKioxia・Sandiskも競争に参加できる
  • AI推論需要の増加に伴い、NAND出荷量の増大が期待される
  • HBF向けNANDは高付加価値製品として、通常のコンシューマSSD向けより高い利益率が見込める
  • AI推論市場は2030年にかけて年率30%超での成長が予測されており、メモリ需要の底上げになる

ただし本記事は投資助言ではなく、あくまで技術・業界動向の解説を目的としている。投資判断は各自の責任で行うこと。

ロボットAIへの影響:長期記憶・世界モデルが変わる

HBFはデータセンターだけの話ではない。将来的にはローカルAIロボットのアーキテクチャにも大きな影響を与える可能性がある。

現在のロボットメモリの制約

現在、小型自律ロボット(例:SCOUT等)のオンボードコンピュータ(Jetson等)はメモリが限られている。大規模なVPR(Visual Place Recognition)データベースや、世界モデルのパラメータを全てオンボードRAMに持つことは難しい。

HBFが変えるロボットのメモリ構造

【将来のローカルAIロボット メモリ階層】

作業メモリ(現在の処理)
       ↕
┌───────────────┐
│  LPDDR(オンボードRAM)│  ← 数十GB・高速
└───────────────┘
       ↕
┌───────────────┐
│  HBF相当のNAND    │  ← 数百GB・高速不揮発 ← ここが変わる
└───────────────┘
       ↕
┌───────────────┐
│  VPRデータベース    │  長期記憶・地図・経験
│  世界モデル        │
│  マルチモーダル記憶  │
└───────────────┘

HBF相当の高速NANDがロボットに搭載されれば、以下が現実的になる。

  • 大規模VPRデータベース:建物全体・キャンパス全域の画像特徴をオンボードに保持
  • 長期記憶:過去の実験ログ・環境変化の履歴をリアルタイムで参照
  • ローカル世界モデル:クラウドを使わずにオンボードで動く環境理解モデル
  • マルチモーダル記憶:カメラ・LiDAR・IMU等の過去データを高速に参照した状態推定

これは「クラウドに頼らない自律ロボット」の実現において、HBFがゲームチェンジャーになりうることを意味する。

まとめ

  • AI業界はGPU性能の競争からメモリ容量・データ移動速度の競争へと移行しつつあり、HBM(DRAM)の容量限界が次のボトルネックになっている
  • HBF(High Bandwidth Flash)はNANDフラッシュをGPU近傍に配置することで、HBMとSSDの中間層として「大容量・低コスト・高速アクセス」を実現しようとする技術だ
  • NVIDIAはVera Rubin世代でGPU Direct Storageを進化させ、HBM→HBF→SSDという階層メモリ構造によるAIサーバーのコスト削減を狙っている
  • HBFが普及すればKioxia・SandiskなどNANDメーカーがAIインフラ市場の重要プレイヤーとして浮上し、SK Hynix・Samsungが独占するHBM市場と異なる競争構図が生まれる
  • 長期的にはローカルAIロボットの大規模VPR・世界モデル・長期記憶の実装にも波及し、クラウド非依存の自律システムを現実に近づける可能性がある

AIの競争は「どのGPUを持つか」から「どうデータを速く動かすか」へと静かに変わり始めている。HBFはその転換を象徴する技術として、今後数年間の業界動向を読む上で欠かせないキーワードになるだろう。


関連書籍(Kindle)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次