NVIDIAが進めるHBF（High Bandwidth Flash）とは何か？ GPU競争からメモリ競争へ変わるAIインフラの未来

2026年6月3日

AIブームはGPU需要を爆発させた。NVIDIAのH100・H200が品薄になり、クラウド各社がデータセンターに何千億円もの投資を続けている。しかし2025年になって、業界の焦点が少しずつ変わり始めている。問題はもはや「GPUが速いかどうか」ではなく、「データをどれだけ速くGPUに届けられるか」になってきたのだ。

その文脈で急浮上しているキーワードがHBF（High Bandwidth Flash）だ。NVIDIAが次世代アーキテクチャで本格採用を検討しているとされるこの技術は、AI半導体の競争軸をGPUからメモリ・ストレージへとシフトさせる可能性を秘めている。本記事では、HBFの概要から業界への影響まで徹底解説する。

まずHBM（High Bandwidth Memory）の限界から理解する

HBMとは何か

HBM（High Bandwidth Memory）とは、GPUやAIアクセラレータに直接積層されるDRAMのことだ。通常のDDR5メモリとは異なり、チップの真横（または真上）に縦方向に積み重ねることで、極めて広い「データの道（バンド幅）」を実現している。

【通常のDRAM構成】
GPU ←—————細いバス—————→ DRAM
     （転送速度：数十GB/s）

【HBM構成】
GPU ←=====超広バンド幅===== HBM
     （転送速度：数TB/s）

H100 GPUに搭載されているHBM3eは最大3.35TB/sのバンド幅を持つ。これはLLMの学習・推論において、モデルの重みパラメータを高速に読み書きするために不可欠だ。

なぜHBMは高価なのか

HBMの製造は非常に複雑だ。シリコンチップを縦に積み重ねる「TSV（Through-Silicon Via）」技術が必要で、歩留まりが低く製造コストが高い。H100 1枚に搭載されているHBM3eの原価だけで数十万円に達するとも言われている。

AIモデル巨大化によるHBMの容量不足

さらに深刻な問題がある。GPT-4クラスのモデルはパラメータ数が1兆を超えるとも推定されており、これをすべてHBMに載せることはできない。推論時に問題となるのがKVキャッシュだ。

KVキャッシュとは、Transformerモデルが長いテキストを処理する際に、過去のトークン情報（Key-Value）をメモリに保持しておく仕組みだ。コンテキスト長が長くなるほど（128K、1Mトークンなど）、このキャッシュに必要なメモリ量は爆発的に増える。

H100のHBM容量は80GB。しかし大規模なバッチ処理や長コンテキスト推論では、これでも足りなくなることが増えている。「GPUは速い、でもメモリが足りない」という状況が現実になっている。

HBF（High Bandwidth Flash）とは何か

NANDフラッシュをGPUの近くに置く

HBFは、NAND型フラッシュメモリ（スマートフォンやSSDに使われる不揮発性メモリ）を、GPUやAIアクセラレータの近傍に配置し、高速なデータアクセスを実現するアーキテクチャだ。

【HBFが描く階層メモリ構造】

AIモデルの重み（大容量）
       ↕  超高速アクセス
┌─────────────────┐
│    HBF（NAND Flash） │  ← 数百GB〜TB級・低コスト
└─────────────────┘
       ↕  高速アクセス
┌─────────────────┐
│    HBM（DRAM）      │  ← 数十GB・超高速
└─────────────────┘
       ↕  超高速アクセス
┌─────────────────┐
│    GPU演算コア       │
└─────────────────┘

HBMとSSDとの違い

比較項目	HBM（DRAM）	HBF（NAND）	通常SSD
バンド幅	数TB/s	数十〜数百GB/s（目標）	数GB/s
容量	数十GB	数百GB〜数TB	数TB〜
コスト/GB	非常に高い	中程度	低い
揮発性	揮発性（電源断でデータ消失）	不揮発性	不揮発性
GPUからの距離	直接積層	近傍配置（目標）	PCIe経由・遠い

HBFが狙うのは「HBMの容量不足を補いつつ、通常SSDより圧倒的に速い」という中間層のポジションだ。

NVIDIAの狙い：Vera Rubinとストレージ直結GPU

NVIDIAが次世代アーキテクチャ「Vera Rubin」で本格的に進めているとされるのがGPU Direct Storageの進化版だ。

GPU Direct Storageとは

従来、GPUがストレージ（SSD等）のデータを読むには「SSD → CPUメモリ → GPU」という経路を通る必要があった。CPU経由のデータ転送はボトルネックになる。GPU Direct Storageはこの迂回路をなくし、「SSD → GPU」の直接転送を実現する技術だ。

【従来の転送経路】
SSD → CPUメモリ（RAM） → GPU
      ↑ここがボトルネック

【GPU Direct Storage】
SSD ———————————————→ GPU
      ↑CPUを介さず直接転送

HBFはこの思想をさらに推し進め、NANDをGPUの極めて近くに配置することで、さらなる高速化を狙う。

AIサーバーのコスト削減効果

現在、大規模AIサーバーのコスト構成はHBM（DRAM）が大きな比率を占める。HBFを使うことで、「あまり頻繁にアクセスしないデータ（モデルの一部、KVキャッシュの古い部分等）」をHBMからHBFにオフロードできる。

これはAIサーバーのコストを大幅に下げる可能性がある。HBM 80GBサーバーを、「HBM 40GB ＋ HBF 数TB」で置き換えることができれば、同等以上のパフォーマンスを低コストで実現できるかもしれない。

Cerebrasとの比較：スケールアップ vs スケールアウト

AIアクセラレータの戦略として、NVIDIAとCerebrasは対照的なアプローチを取っている。

項目	NVIDIA（スケールアウト）	Cerebras（スケールアップ）
基本戦略	多数のGPUをネットワークで接続	1枚のウェハー全体をチップにする
チップサイズ	通常のダイサイズ（数百mm²）	ウェハー全体（46,000mm²）
メモリ帯域	HBM ＋ NVLinkでノード間通信	オンチップSRAMで超高速
メモリ容量	HBMで制限あり → HBFで拡張へ	SRAMは大容量化が困難
コスト	HBMが高コスト要因	ウェハー製造が高コスト
柔軟性	GPU枚数で細かくスケール可能	スケールの粒度が大きい

HBFはNVIDIAのスケールアウト戦略における「メモリ容量不足」という弱点を補う技術として機能する。一方Cerebrasはオンチップメモリを極端に増やすアプローチを採るため、HBFの恩恵を受ける構造が異なる。現時点では、汎用性とエコシステムの強さでNVIDIAが圧倒的優位だが、Cerebrasは特定の大規模学習タスクで存在感を示している。

KioxiaとSandiskにとっての意味

なぜNANDメーカーが注目されるのか

HBFの中核はNANDフラッシュだ。世界のNANDフラッシュ市場を支えているのは、Samsung・SK Hynix・Micron・Kioxia（旧東芝メモリ）・Sandisk（WD傘下）の5社だ。

これまでNANDメーカーはスマートフォン・PC・データセンターSSD向けに事業を展開してきた。しかしHBFが本格普及すれば、AI推論インフラ向けのNAND需要という巨大な新市場が生まれる。

投資家が注目するポイント

HBMはSK HynixとSamsungがほぼ独占しているが、HBFではKioxia・Sandiskも競争に参加できる
AI推論需要の増加に伴い、NAND出荷量の増大が期待される
HBF向けNANDは高付加価値製品として、通常のコンシューマSSD向けより高い利益率が見込める
AI推論市場は2030年にかけて年率30%超での成長が予測されており、メモリ需要の底上げになる

ただし本記事は投資助言ではなく、あくまで技術・業界動向の解説を目的としている。投資判断は各自の責任で行うこと。

ロボットAIへの影響：長期記憶・世界モデルが変わる

HBFはデータセンターだけの話ではない。将来的にはローカルAIロボットのアーキテクチャにも大きな影響を与える可能性がある。

現在のロボットメモリの制約

現在、小型自律ロボット（例：SCOUT等）のオンボードコンピュータ（Jetson等）はメモリが限られている。大規模なVPR（Visual Place Recognition）データベースや、世界モデルのパラメータを全てオンボードRAMに持つことは難しい。

HBFが変えるロボットのメモリ構造

【将来のローカルAIロボット メモリ階層】

作業メモリ（現在の処理）
       ↕
┌───────────────┐
│  LPDDR（オンボードRAM）│  ← 数十GB・高速
└───────────────┘
       ↕
┌───────────────┐
│  HBF相当のNAND    │  ← 数百GB・高速不揮発 ← ここが変わる
└───────────────┘
       ↕
┌───────────────┐
│  VPRデータベース    │  長期記憶・地図・経験
│  世界モデル        │
│  マルチモーダル記憶  │
└───────────────┘

HBF相当の高速NANDがロボットに搭載されれば、以下が現実的になる。

大規模VPRデータベース：建物全体・キャンパス全域の画像特徴をオンボードに保持
長期記憶：過去の実験ログ・環境変化の履歴をリアルタイムで参照
ローカル世界モデル：クラウドを使わずにオンボードで動く環境理解モデル
マルチモーダル記憶：カメラ・LiDAR・IMU等の過去データを高速に参照した状態推定

これは「クラウドに頼らない自律ロボット」の実現において、HBFがゲームチェンジャーになりうることを意味する。

まとめ

AI業界はGPU性能の競争からメモリ容量・データ移動速度の競争へと移行しつつあり、HBM（DRAM）の容量限界が次のボトルネックになっている
HBF（High Bandwidth Flash）はNANDフラッシュをGPU近傍に配置することで、HBMとSSDの中間層として「大容量・低コスト・高速アクセス」を実現しようとする技術だ
NVIDIAはVera Rubin世代でGPU Direct Storageを進化させ、HBM→HBF→SSDという階層メモリ構造によるAIサーバーのコスト削減を狙っている
HBFが普及すればKioxia・SandiskなどNANDメーカーがAIインフラ市場の重要プレイヤーとして浮上し、SK Hynix・Samsungが独占するHBM市場と異なる競争構図が生まれる
長期的にはローカルAIロボットの大規模VPR・世界モデル・長期記憶の実装にも波及し、クラウド非依存の自律システムを現実に近づける可能性がある

AIの競争は「どのGPUを持つか」から「どうデータを速く動かすか」へと静かに変わり始めている。HBFはその転換を象徴する技術として、今後数年間の業界動向を読む上で欠かせないキーワードになるだろう。

この記事を書いた人

5億円ボタン

天才

NVIDIAが進めるHBF（High Bandwidth Flash）とは何か？ GPU競争からメモリ競争へ変わるAIインフラの未来

まずHBM（High Bandwidth Memory）の限界から理解する

HBMとは何か

なぜHBMは高価なのか

AIモデル巨大化によるHBMの容量不足

HBF（High Bandwidth Flash）とは何か

NANDフラッシュをGPUの近くに置く

HBMとSSDとの違い

NVIDIAの狙い：Vera Rubinとストレージ直結GPU

GPU Direct Storageとは

AIサーバーのコスト削減効果

Cerebrasとの比較：スケールアップ vs スケールアウト

KioxiaとSandiskにとっての意味

なぜNANDメーカーが注目されるのか

投資家が注目するポイント

ロボットAIへの影響：長期記憶・世界モデルが変わる

現在のロボットメモリの制約

HBFが変えるロボットのメモリ構造

まとめ

関連書籍（Kindle）

この記事を書いた人

コメント

コメントするコメントをキャンセル

NVIDIAが進めるHBF（High Bandwidth Flash）とは何か？ GPU競争からメモリ競争へ変わるAIインフラの未来

まずHBM（High Bandwidth Memory）の限界から理解する

HBMとは何か

なぜHBMは高価なのか

AIモデル巨大化によるHBMの容量不足

HBF（High Bandwidth Flash）とは何か

NANDフラッシュをGPUの近くに置く

HBMとSSDとの違い

NVIDIAの狙い：Vera Rubinとストレージ直結GPU

GPU Direct Storageとは

AIサーバーのコスト削減効果

Cerebrasとの比較：スケールアップ vs スケールアウト

KioxiaとSandiskにとっての意味

なぜNANDメーカーが注目されるのか

投資家が注目するポイント

ロボットAIへの影響：長期記憶・世界モデルが変わる

現在のロボットメモリの制約

HBFが変えるロボットのメモリ構造

まとめ

関連書籍（Kindle）

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル