AIブームはGPU需要を爆発させた。NVIDIAのH100・H200が品薄になり、クラウド各社がデータセンターに何千億円もの投資を続けている。しかし2025年になって、業界の焦点が少しずつ変わり始めている。問題はもはや「GPUが速いかどうか」ではなく、「データをどれだけ速くGPUに届けられるか」になってきたのだ。
その文脈で急浮上しているキーワードがHBF(High Bandwidth Flash)だ。NVIDIAが次世代アーキテクチャで本格採用を検討しているとされるこの技術は、AI半導体の競争軸をGPUからメモリ・ストレージへとシフトさせる可能性を秘めている。本記事では、HBFの概要から業界への影響まで徹底解説する。
まずHBM(High Bandwidth Memory)の限界から理解する
HBMとは何か
HBM(High Bandwidth Memory)とは、GPUやAIアクセラレータに直接積層されるDRAMのことだ。通常のDDR5メモリとは異なり、チップの真横(または真上)に縦方向に積み重ねることで、極めて広い「データの道(バンド幅)」を実現している。
【通常のDRAM構成】
GPU ←—————細いバス—————→ DRAM
(転送速度:数十GB/s)
【HBM構成】
GPU ←=====超広バンド幅===== HBM
(転送速度:数TB/s)
H100 GPUに搭載されているHBM3eは最大3.35TB/sのバンド幅を持つ。これはLLMの学習・推論において、モデルの重みパラメータを高速に読み書きするために不可欠だ。
なぜHBMは高価なのか
HBMの製造は非常に複雑だ。シリコンチップを縦に積み重ねる「TSV(Through-Silicon Via)」技術が必要で、歩留まりが低く製造コストが高い。H100 1枚に搭載されているHBM3eの原価だけで数十万円に達するとも言われている。
AIモデル巨大化によるHBMの容量不足
さらに深刻な問題がある。GPT-4クラスのモデルはパラメータ数が1兆を超えるとも推定されており、これをすべてHBMに載せることはできない。推論時に問題となるのがKVキャッシュだ。
KVキャッシュとは、Transformerモデルが長いテキストを処理する際に、過去のトークン情報(Key-Value)をメモリに保持しておく仕組みだ。コンテキスト長が長くなるほど(128K、1Mトークンなど)、このキャッシュに必要なメモリ量は爆発的に増える。
H100のHBM容量は80GB。しかし大規模なバッチ処理や長コンテキスト推論では、これでも足りなくなることが増えている。「GPUは速い、でもメモリが足りない」という状況が現実になっている。
HBF(High Bandwidth Flash)とは何か
NANDフラッシュをGPUの近くに置く
HBFは、NAND型フラッシュメモリ(スマートフォンやSSDに使われる不揮発性メモリ)を、GPUやAIアクセラレータの近傍に配置し、高速なデータアクセスを実現するアーキテクチャだ。
【HBFが描く階層メモリ構造】
AIモデルの重み(大容量)
↕ 超高速アクセス
┌─────────────────┐
│ HBF(NAND Flash) │ ← 数百GB〜TB級・低コスト
└─────────────────┘
↕ 高速アクセス
┌─────────────────┐
│ HBM(DRAM) │ ← 数十GB・超高速
└─────────────────┘
↕ 超高速アクセス
┌─────────────────┐
│ GPU演算コア │
└─────────────────┘
HBMとSSDとの違い
| 比較項目 | HBM(DRAM) | HBF(NAND) | 通常SSD |
|---|---|---|---|
| バンド幅 | 数TB/s | 数十〜数百GB/s(目標) | 数GB/s |
| 容量 | 数十GB | 数百GB〜数TB | 数TB〜 |
| コスト/GB | 非常に高い | 中程度 | 低い |
| 揮発性 | 揮発性(電源断でデータ消失) | 不揮発性 | 不揮発性 |
| GPUからの距離 | 直接積層 | 近傍配置(目標) | PCIe経由・遠い |
HBFが狙うのは「HBMの容量不足を補いつつ、通常SSDより圧倒的に速い」という中間層のポジションだ。
NVIDIAの狙い:Vera Rubinとストレージ直結GPU
NVIDIAが次世代アーキテクチャ「Vera Rubin」で本格的に進めているとされるのがGPU Direct Storageの進化版だ。
GPU Direct Storageとは
従来、GPUがストレージ(SSD等)のデータを読むには「SSD → CPUメモリ → GPU」という経路を通る必要があった。CPU経由のデータ転送はボトルネックになる。GPU Direct Storageはこの迂回路をなくし、「SSD → GPU」の直接転送を実現する技術だ。
【従来の転送経路】
SSD → CPUメモリ(RAM) → GPU
↑ここがボトルネック
【GPU Direct Storage】
SSD ———————————————→ GPU
↑CPUを介さず直接転送
HBFはこの思想をさらに推し進め、NANDをGPUの極めて近くに配置することで、さらなる高速化を狙う。
AIサーバーのコスト削減効果
現在、大規模AIサーバーのコスト構成はHBM(DRAM)が大きな比率を占める。HBFを使うことで、「あまり頻繁にアクセスしないデータ(モデルの一部、KVキャッシュの古い部分等)」をHBMからHBFにオフロードできる。
これはAIサーバーのコストを大幅に下げる可能性がある。HBM 80GBサーバーを、「HBM 40GB + HBF 数TB」で置き換えることができれば、同等以上のパフォーマンスを低コストで実現できるかもしれない。
Cerebrasとの比較:スケールアップ vs スケールアウト
AIアクセラレータの戦略として、NVIDIAとCerebrasは対照的なアプローチを取っている。
| 項目 | NVIDIA(スケールアウト) | Cerebras(スケールアップ) |
|---|---|---|
| 基本戦略 | 多数のGPUをネットワークで接続 | 1枚のウェハー全体をチップにする |
| チップサイズ | 通常のダイサイズ(数百mm²) | ウェハー全体(46,000mm²) |
| メモリ帯域 | HBM + NVLinkでノード間通信 | オンチップSRAMで超高速 |
| メモリ容量 | HBMで制限あり → HBFで拡張へ | SRAMは大容量化が困難 |
| コスト | HBMが高コスト要因 | ウェハー製造が高コスト |
| 柔軟性 | GPU枚数で細かくスケール可能 | スケールの粒度が大きい |
HBFはNVIDIAのスケールアウト戦略における「メモリ容量不足」という弱点を補う技術として機能する。一方Cerebrasはオンチップメモリを極端に増やすアプローチを採るため、HBFの恩恵を受ける構造が異なる。現時点では、汎用性とエコシステムの強さでNVIDIAが圧倒的優位だが、Cerebrasは特定の大規模学習タスクで存在感を示している。
KioxiaとSandiskにとっての意味
なぜNANDメーカーが注目されるのか
HBFの中核はNANDフラッシュだ。世界のNANDフラッシュ市場を支えているのは、Samsung・SK Hynix・Micron・Kioxia(旧東芝メモリ)・Sandisk(WD傘下)の5社だ。
これまでNANDメーカーはスマートフォン・PC・データセンターSSD向けに事業を展開してきた。しかしHBFが本格普及すれば、AI推論インフラ向けのNAND需要という巨大な新市場が生まれる。
投資家が注目するポイント
- HBMはSK HynixとSamsungがほぼ独占しているが、HBFではKioxia・Sandiskも競争に参加できる
- AI推論需要の増加に伴い、NAND出荷量の増大が期待される
- HBF向けNANDは高付加価値製品として、通常のコンシューマSSD向けより高い利益率が見込める
- AI推論市場は2030年にかけて年率30%超での成長が予測されており、メモリ需要の底上げになる
ただし本記事は投資助言ではなく、あくまで技術・業界動向の解説を目的としている。投資判断は各自の責任で行うこと。
ロボットAIへの影響:長期記憶・世界モデルが変わる
HBFはデータセンターだけの話ではない。将来的にはローカルAIロボットのアーキテクチャにも大きな影響を与える可能性がある。
現在のロボットメモリの制約
現在、小型自律ロボット(例:SCOUT等)のオンボードコンピュータ(Jetson等)はメモリが限られている。大規模なVPR(Visual Place Recognition)データベースや、世界モデルのパラメータを全てオンボードRAMに持つことは難しい。
HBFが変えるロボットのメモリ構造
【将来のローカルAIロボット メモリ階層】
作業メモリ(現在の処理)
↕
┌───────────────┐
│ LPDDR(オンボードRAM)│ ← 数十GB・高速
└───────────────┘
↕
┌───────────────┐
│ HBF相当のNAND │ ← 数百GB・高速不揮発 ← ここが変わる
└───────────────┘
↕
┌───────────────┐
│ VPRデータベース │ 長期記憶・地図・経験
│ 世界モデル │
│ マルチモーダル記憶 │
└───────────────┘
HBF相当の高速NANDがロボットに搭載されれば、以下が現実的になる。
- 大規模VPRデータベース:建物全体・キャンパス全域の画像特徴をオンボードに保持
- 長期記憶:過去の実験ログ・環境変化の履歴をリアルタイムで参照
- ローカル世界モデル:クラウドを使わずにオンボードで動く環境理解モデル
- マルチモーダル記憶:カメラ・LiDAR・IMU等の過去データを高速に参照した状態推定
これは「クラウドに頼らない自律ロボット」の実現において、HBFがゲームチェンジャーになりうることを意味する。
まとめ
- AI業界はGPU性能の競争からメモリ容量・データ移動速度の競争へと移行しつつあり、HBM(DRAM)の容量限界が次のボトルネックになっている
- HBF(High Bandwidth Flash)はNANDフラッシュをGPU近傍に配置することで、HBMとSSDの中間層として「大容量・低コスト・高速アクセス」を実現しようとする技術だ
- NVIDIAはVera Rubin世代でGPU Direct Storageを進化させ、HBM→HBF→SSDという階層メモリ構造によるAIサーバーのコスト削減を狙っている
- HBFが普及すればKioxia・SandiskなどNANDメーカーがAIインフラ市場の重要プレイヤーとして浮上し、SK Hynix・Samsungが独占するHBM市場と異なる競争構図が生まれる
- 長期的にはローカルAIロボットの大規模VPR・世界モデル・長期記憶の実装にも波及し、クラウド非依存の自律システムを現実に近づける可能性がある
AIの競争は「どのGPUを持つか」から「どうデータを速く動かすか」へと静かに変わり始めている。HBFはその転換を象徴する技術として、今後数年間の業界動向を読む上で欠かせないキーワードになるだろう。
関連書籍(Kindle)
- 📘 AI半導体とメモリアーキテクチャ(Kindle) — HBMからHBFまで半導体メモリの進化を学ぶ
- 📗 NVIDIAとAIインフラの戦略(Kindle) — GPUアーキテクチャとデータセンター設計
- 📙 NANDフラッシュとSSDの技術(Kindle) — フラッシュメモリの仕組みとAI時代の展望
- 📕 エッジAI推論とロボットメモリ(Kindle) — ローカルAIのハードウェア設計と実装


コメント