AI技術の発展をこれまで牽引してきたのはモデルの「学習」フェーズです。GPT-4やGeminiといった大規模言語モデル(LLM)の登場は、膨大な計算資源を使った学習があってこそ可能になりました。しかし2024〜2025年にかけて、業界の関心は静かに「推論」へと移行しています。

なぜか。学習は一度やれば終わりですが、推論は使うたびに走ります。何億人ものユーザーがリアルタイムにAIを使い続ける今、推論コストは学習コストを超えつつあります。MicrosoftやAnthropicが直面している最大のコスト課題は、新しいモデルを作ることではなく、作ったモデルを効率よく動かし続けることです。

この「推論ボトルネック」の解消を狙う企業の中で、ひときわ独自のアプローチを取っているのがFractileです。彼らが目指すのは、計算の場所そのものを変えること。「データを計算ユニットに運ぶ」のではなく「データのある場所で計算する」という発想の転換です。


GPUの限界:なぜ最速のチップが「遅い」と感じられるのか

NVIDIA GPUが現在のAI市場を支配している理由は明確です。CUDAというソフトウェアエコシステムが研究者・エンジニアに広く普及し、並列演算に特化したアーキテクチャがディープラーニングのワークロードと相性が良い。H100は1枚あたり約700Wを消費しながら、毎秒数千兆回の演算(FLOPS)をこなします。

しかし、このGPUにも構造的な問題があります。

まずコスト。H100は1枚30〜40万円、それを数千〜数万枚規模で使うデータセンターの構築コストは兆円単位になります。推論専用のサービス(ChatGPT、Claude等)では、回答1件あたりの計算コストを下げることが収益性の核心です。

次に電力消費。GPUクラスターを動かし続けるには莫大な電力が必要で、電力インフラの整備が新たなボトルネックになっています。エッジデバイスやロボットではそもそもGPUを動かすだけの電力がありません。

そして最も本質的な問題がメモリウォール(Memory Wall)です。


メモリボトルネックとは何か:計算より「運搬」が遅い

現代のコンピュータアーキテクチャでは、計算を行うプロセッサ(GPU/CPU)と、データを保存するメモリ(DRAM)が別々のチップです。計算の速さがどれだけ上がっても、必要なデータをメモリから計算ユニットへ「運ぶ」速度が追いつかなければ、計算ユニットは待ち続けることになります。

これをメモリウォール問題といいます。プロセッサの演算速度(FLOPS)は年々急速に向上してきましたが、メモリの帯域幅(単位時間に転送できるデータ量)の伸びはそれより遅い。この差は年々拡大しています。

LLMの推論でこれが特に深刻になる理由は、モデルの「重み(パラメータ)」のサイズにあります。GPT-3は1,750億パラメータ、それを32ビット浮動小数で格納すると約700GBになります。量子化(精度を下げてサイズを圧縮する手法)で4ビットにしても約87GBです。この巨大なデータを、推論のたびにメモリから読み出し続けなければなりません。

わかりやすく言えば、「図書館(メモリ)にある百科事典全巻(モデルの重み)を、1ページ読むたびに机(演算ユニット)まで運んで持ち帰る」を毎秒繰り返しているようなものです。計算そのものより、本を運ぶ往復が時間の大半を占めている。それがLLM推論の実態です。

NVIDIA H100に搭載されているHBM3メモリの帯域幅は約3.35TB/sと非常に高速ですが、それでもH100の演算ピーク性能(FP16で約1,979TFLOPS)に対して、メモリ帯域はまだ追いついていない。演算ユニットの大半の時間はデータを待つことに費やされています。


Fractileのアプローチ:「データを動かさず、計算を持ち込む」

Fractileが提案するのは、この「運搬問題」を根本から解決するアーキテクチャです。キーワードはインメモリコンピューティング(In-Memory Computing)。データのある場所—メモリの中—で計算そのものを行う、という発想です。

具体的にはSRAM(Static RAM、高速な静的メモリ)のセルに演算機能を持たせます。通常のSRAMはデータを保存するだけですが、Fractileの設計ではSRAMセルが直接アナログ演算(積和演算、MAC:Multiply-Accumulate)を実行できます。LLMの推論で繰り返し行われる行列ベクトル積(モデルの重みと入力データの積)を、重みデータをメモリから外に出すことなく、その場で計算してしまうわけです。

これが「なぜ効くのか」を整理すると、メモリとプロセッサ間のデータ転送が最小化されるためエネルギー消費が劇的に下がります。転送の待ち時間がなくなるため、レイテンシ(応答遅延)が短縮されます。大量のSRAMアレイが並列に演算できるため、スループットも高い。理論的には従来GPUと比べて電力効率を10〜100倍改善できると主張されています。

Fractileは特にLLMの推論をターゲットにしており、量子化された重みをSRAMに展開してその場で演算する設計です。デジタル回路ではなくアナログ演算を使う点が技術的な特徴であり、これが高密度・低電力を実現する鍵でもありますが、後述するように実装の難しさでもあります。


他の推論チップとの比較

Fractileと同様に「GPUの次」を狙うチップ企業は複数あります。それぞれ異なるアプローチを取っており、比較することでFractileの立ち位置が明確になります。

企業主なアーキテクチャ強み弱み・課題主要ターゲット
GroqTSP(Tensor Streaming Processor)超低遅延・確定的実行時間大モデルには複数チップ必要低遅延推論API
Cerebrasウェーハスケールエンジン(WSE)1チップに巨大メモリ・演算製造コストが非常に高い大規模学習・大型モデル推論
SambaNovaRDA(Reconfigurable Dataflow Architecture)エンタープライズ向け柔軟性汎用性とのバランス企業向けオンプレ推論
Lightmatterフォトニクス(光演算)究極の低電力・高速製造難度・精度管理が極めて難しいデータセンター長期
Fractileインメモリコンピューティング(SRAM)メモリ帯域ボトルネック解消・低電力アナログ回路の精度・ソフトスタックLLM推論・エッジAI

Groqはすでに商用APIとして稼働しており、LLM推論の速度(トークン/秒)でGPUを大幅に上回る実績があります。ただしメモリボトルネックへのアプローチはFractileとは異なり、大量のSRAMをオンチップに積むことで転送回数を減らす方向です。Cerebrasはウェーハ1枚をそのまま1チップとして使う超大規模設計で、製造の歩留まりを特殊な回路設計で補っています。


なぜ簡単に真似できないのか

インメモリコンピューティングは概念としては1990年代から提案されてきた古いアイデアです。にもかかわらず実用化が進まなかった理由が三つあります。

一つ目はアナログ回路の精度管理です。デジタル演算は0か1かのビットで処理するため、製造ばらつきの影響を受けにくい。しかしアナログ演算は電流・電圧の微細な差を使うため、製造工程のわずかなばらつきが演算誤差に直結します。LLMの精度を保ちながらアナログ演算を使うには、誤差補正の仕組みと精密な回路設計が必要です。

二つ目はソフトウェアスタック(コンパイラ)の問題です。GPUがCUDAで何十年も培ったエコシステムを持つのに対し、新アーキテクチャではモデルをそのチップ上で効率よく実行するコンパイラとランタイムをゼロから作る必要があります。PyTorch・TensorFlowのモデルを自動的に最適変換するツールチェーンは、作るのに数年単位の開発が必要です。

三つ目は製造(ファブ)の問題です。TSMCやSamsungの標準的な先端プロセスはデジタルロジックに最適化されており、アナログ演算に適した特殊なSRAMセル設計は標準プロセスとの相性が悪い場合があります。量産性を確保しながら性能を実現するプロセス選定が難題です。


実用化の現状:どこまで来ているのか

インメモリコンピューティングの「近縁技術」は既にいくつか実用化されています。Near-Memory Computing(近傍メモリ演算)はその代表例で、HBMのようにメモリをプロセッサに非常に近接配置することでデータ転送距離を短縮します。NVIDIAがH100/H200にHBMを採用しているのもこの思想の延長上にあります。

In-Memoryの本命であるSRAMベースの演算回路は、IBMやSamsung等の研究機関がデモを発表していますが、商用製品として大規模展開した例はまだ限られています。Fractileは2023〜2024年にかけてシリーズAの資金調達を行い、テープアウト(チップ設計完成・試作製造)段階に進んでいると報告されています。ただし商用出荷の具体的なスケジュールは現時点では公開されていません。

Fractileの立ち位置は「技術的な実現性を証明しつつある段階」であり、GPUの代替として今すぐ使えるプロダクトではない。しかしLLM推論の電力効率改善という課題は業界全体で非常に大きく、技術が実証されれば需要は保証されているとも言えます。


将来予測:GPUはなくなるのか

結論から言えば、短中期(3〜5年)でGPUがAIチップ市場の主役でなくなる可能性は低いです。CUDAエコシステム・NVIDIA の製品ロードマップ(Blackwell→Rubin)・データセンターへの設備投資は引き続き巨大なモメンタムを持っています。

ただし、市場の分化は進むでしょう。大規模学習(トレーニング)はGPUクラスターが今後も主役であり続ける可能性が高い。一方、推論用途では電力効率・コスト・遅延を最適化した専用チップ(Groq・Cerebras・将来のFractile等)が特定のニッチを確実に奪っていきます。

インメモリコンピューティングが主流になるシナリオは2030年以降の話になる可能性が高いですが、エッジデバイス(スマートフォン・ロボット・車載)では電力制約が厳しいため、インメモリアーキテクチャが最初に量産規模で展開されるのはこの分野かもしれません。

AIインフラ全体の変化として確実なのは、「GPU一強」から「ワークロード別の最適チップ」という多様化の方向です。学習・大規模推論・低遅延推論・エッジ推論が、それぞれ異なるアーキテクチャのチップで処理される世界が近づいています。


ロボット・エッジAIへのインパクト

ロボットにとってAI推論の「低電力・低遅延化」は死活問題です。産業用AMRや自律移動ロボットは搭載バッテリーから給電するため、消費電力が行動時間を直接制限します。サービスロボットが人間の問いかけに即座に反応するには、クラウドへの通信往復なしにオンデバイスで推論する能力が必要です。

現在の主流は「軽量モデル+GPU/NPUの組み合わせ」ですが、モデルが大型化する方向にある以上、これは根本解決ではありません。Fractileのようなインメモリアーキテクチャが実用化されれば、今のGPUと同等の推論能力を10分の1以下の電力で実現できる可能性があります。そうなれば、現在クラウドでしか動かせないLLMクラスのモデルが、ロボットの小型オンボードコンピュータで動く未来が現実味を帯びます。

農業ロボット・医療補助ロボット・建設現場ドローンといった「電力供給が限られる過酷環境」での自律AIこそ、次世代推論チップが最初に価値を発揮できる市場です。ZaiNarの5G測位(前回記事参照)との組み合わせで、「どこでも動く・正確に位置を知る・AIで判断する」ロボットが実現する技術的なピースが揃い始めています。


まとめ

AIの推論コストはいま最重要の技術課題になっています。GPUは巨大な演算能力を持ちながら、メモリとプロセッサ間のデータ転送がボトルネックになるという構造的な問題を抱えています。Fractileはこの問題を「計算をメモリの中で行う」というインメモリコンピューティングで解決しようとしています。

技術的な挑戦は大きく、アナログ回路の精度・ソフトウェアスタック・製造工程の三つが商用化への壁です。現時点では実用製品よりも「証明段階」の技術ですが、LLM推論の電力効率改善というニーズの大きさは保証されており、成功すれば市場インパクトは大きい。

短中期はGroqが低遅延推論で存在感を示し、GPUは学習・大規模推論で主役を維持しながら、Fractileのようなインメモリ技術はエッジAI・ロボットから実用化の糸口を掴む—そういう展開が現実的なシナリオです。

要点を一言で:AI推論の勝負は「どれだけ速く計算できるか」から「どれだけデータを動かさずに計算できるか」に変わっている。