Gemma 4の概要
リリースと位置付け
- リリース時期と背景 – Google DeepMindは2026年4月2日にオープンウェイトモデルファミリー「Gemma 4」を発表しました。これは従来のGemmaシリーズの第4世代にあたり、Gemini 3の研究・技術を基に、より高度な推論とエージェントワークフローの実行を目指したオープンモデルです。ダウンロード数4億回を超えるGemmaコミュニティの要望を踏まえて設計されており、Apache 2.0ライセンス下で自由に利用できます。Gemma 4はGeminiのプロプライエタリモデルを補完し、開発者にオープンとクローズドの両方の選択肢を提供します。
-
ファミリー構成 – Gemma 4は4つのサイズで提供され、それぞれ特定の用途・ハードウェアを想定している。
モデル 有効パラメータ数(合計) コンテキスト長 モダリティ 主な用途 E2B 有効約2.3 B(総計5.1 B) 128Kトークン テキスト・画像・音声 モバイル・IoT向け。約1.5 GB以下のメモリで動作し、Raspberry Pi 5で毎秒7.6トークン生成が報告されている。 E4B 有効約4.5 B(総計8 B) 128Kトークン テキスト・画像・音声 モバイル・IoT向け。低レイテンシー重視。 26B A4B MoE 合計25.2 B/アクティブ3.8 B 256Kトークン テキスト・画像 Mixture‑of‑Expertsにより1トークンあたり3.8 Bパラメータのみ計算。ワークステーション用で高効率。 31B Dense 30.7 B(高密度) 256Kトークン テキスト・画像 最高品質を目指したフロンティアモデル。1枚の80 GB GPU(NVIDIA H100)で実行可能。 上表では「E」は有効パラメータ数(必要な演算のみ)、「A」はアクティブパラメータ数を表す。
アーキテクチャと効率化技術
ハイブリッド注意機構と長コンテキスト
- Gemma 4はデコーダ専用トランスフォーマーであり、長いコンテキストを効率的に処理するためにハイブリッド注意機構を採用する。具体的には、局所的なスライディングウィンドウ(512または1024トークン)と全体グローバル注意を交互に配置し、必要な部分のみ全体コンテキストを参照する。これにより128K/256Kの長大なコンテキストを維持しながらメモリ負荷を削減できる。
- 比例RoPE (p‑RoPE) と統合されたキー・値 (unified KV) をグローバル層で使用し、長コンテキストでの安定性とスケーリングを向上。小型モデルではさらに共有KVキャッシュを利用し、隣接層間でKVテンソルを使い回すことでキャッシュメモリを削減する。
Per‑Layer Embeddings (PLE)
- 小型のE2BとE4BモデルはPer‑Layer Embeddings (PLE) を導入。通常のTransformerは入力層で1つだけ埋め込みを与えるが、PLEでは各デコーダ層に小さな埋め込みテーブルを持たせることで、有効パラメータ数を増やさずに表現力を向上させる。これにより小型モデルが大きな表現力を発揮し、低メモリで実行できる。
Mixture‑of‑Experts (MoE)
- 26B A4BモデルはMixture‑of‑Experts (MoE) を採用。1層あたり128個の小規模専門ネットワーク(expert)を配置し、ルータが各トークンに対して上位2個のexpertを選択して出力を重み付きで結合する。その結果、26Bの総パラメータを持ちながら1トークンあたり3.8 Bパラメータのみを活性化し、4Bモデル並みの計算コストで27B級の性能を達成する。では、MoE層はフィードフォワード部にのみ適用され、注意層は標準の密集形式であることが説明されている。
モダリティと可変画像トークン
- Gemma 4はテキストだけでなく、画像・動画・音声(E2B/E4Bのみ)を入力できるマルチモーダルモデルである。画像処理では入力画像のアスペクト比を保持し、1枚あたりのトークン数を70~1120の範囲で可変に設定できる。これにより、詳細なOCRやドキュメント解析には高トークン数を指定し、分類タスクには低トークン数で高速化するといった調整が可能。
- ネイティブなバウンディングボックス出力 – Gemma 4は画像内のオブジェクト検出に際し、
[y1, x1, y2, x2]形式のバウンディングボックス座標とラベルをJSON形式で直接返す。これは既存のPyTorchベースの[x1, y1, x2, y2]形式と異なるため座標順の変換が必要。動画入力では1秒あたり1フレーム、最大60秒まで処理できる。
思考モードと機能呼び出し
- 思考モード (Thinking mode) – Gemma 4は回答生成前に内部推論ステップを行う機能を搭載し、ユーザーはシステムプロンプト先頭に
<|think|>トークンを含めることで有効化できる。思考モードを使うと、モデルは<|channel>thoughtタグ内に推論過程を出力した後に最終回答を出力し、複数ターンの会話では過去の思考内容を次のターンに含めないことが推奨されている。 - 関数呼び出し (Function calling) – すべてのGemma 4モデルはネイティブに関数呼び出しをサポートし、構造化されたJSON出力を生成できる。エージェントワークフローで外部ツールを呼び出してタスクを自動化するのに適している。
トレーニングデータと安全性
- データソースとカットオフ – Gemma 4は2025年1月が知識カットオフであり、ウェブ文書・コード・数学テキスト・画像・音声など多様なデータを用いて事前学習されている。特に140以上の言語を含むウェブ文書やコードにより、多言語対応とコーディング能力を習得している。
- データフィルタリング – トレーニングデータは以下の手法でクリーニングされ、Googleのポリシーに沿って有害コンテンツや個人情報が除外されている。
- 児童性的虐待コンテンツ (CSAM) の厳格なフィルタリング。
- 個人情報やセンシティブなデータの自動フィルタリング。
- 品質・安全性に基づく追加のフィルタリング。
- 安全性評価 – Gemma 4モデルは自動評価と人間による評価を受け、児童虐待・危険行為・露骨な性的描写・ヘイトスピーチなど有害コンテンツの生成抑制において従来モデルより大幅に改善した。
性能とベンチマーク
Googleのモデルカードと技術解説では、Gemma 4の各モデルがさまざまなベンチマークでGemma 3や競合モデルを大幅に上回ることが示されている。
- テキスト・推論ベンチマーク – Arena AIのELOリーダーボードでは31Bが3位、26B MoEが6位に位置し、同規模の競合モデルを凌駕する。AIME 2026(数学ベンチマーク)では31Bが89.2%、26B MoEが88.3%を達成し、Gemma 3 27Bの20.8%を大きく上回る。LiveCodeBench v6(競技プログラミング)でも31Bが80.0%、26B MoEが77.1%を記録し、Gemma 3 27Bの29.1%を大きく超える。
- 科学・マルチモーダルベンチマーク – GPQA Diamondでは31Bが84.3%、26B MoEが82.3%を獲得し、τ2-bench(エージェントツールの利用能力)では31Bが86.4%、26B MoEが85.5%と圧倒的な差を示した。MMMLUやMMLU Proなど多言語Q&Aや数学・科学ベンチマークでもGemma 4シリーズはGemma 3より大幅に向上している。
- ビジョン・音声ベンチマーク – OmniDocBench(文書理解)では31Bが平均編集距離0.131と低い値を示し、E2B/E4Bは0.181/0.290と健闘した。Math‑VisionやMMMU Proでも31Bが最も高い精度を記録する。音声ベンチマークCoVoSTやFLEURSではE2B/E4Bが対応し、他モデルは音声をサポートしない。
ライセンスとエコシステム
- Gemma 4はApache 2.0ライセンスで提供され、商用利用・再配布・改変が自由に行える。前世代の制約の多いライセンスから大きく緩和され、企業や研究者が法的な制限なく利用できるようになった。。
- ハードウェアとデプロイ先 – E2B/E4BはAndroid端末やRaspberry Pi、Jetson Nanoといったエッジデバイスでオフライン動作し、低レイテンシーを実現する。26B MoEと31Bは研究者や開発者がワークステーション(単一80 GB GPU)で利用でき、量子化を用いれば一般的なコンシューマGPUにも収まる。Gemma 4はHugging Face、Kaggle、Ollamaなどでモデルウェイトを公開しており、Transformers・LLMライブラリ(vLLM、llama.cpp、MLXなど)で即利用できる。
- ツールサポート – Gemma 4はGoogle AI Studio(31B/26B)やGoogle AI Edge Gallery(E2B/E4B)で利用できる。また、Vertex AIやCloud RunなどGoogle Cloudのサービス、Hugging Face Transformers、LiteRT‑LM、LM Studio、NVIDIA NIM、Ollama等、幅広いツールチェーンに対応する。
ユースケースと注意点
- 用途の広さ – Gemma 4はテキスト生成、要約、コード生成、画像解析、音声認識、エージェントワークフローなど多岐にわたるタスクに対応する。モデルカードには、コンテンツ制作・チャットボット・要約・画像データ抽出・音声処理・研究・教育などのユースケースが示されている。
- 制限事項 – トレーニングデータに偏りやギャップが存在する場合、モデル出力にもその影響が残る可能性があることや、大規模なデータから学んだ社会文化的バイアスを反映するおそれがあることが指摘されている。モデルは知識ベースではなく言語統計パターンに依存しており、古い情報や不正確な事実を生成する可能性もある。
まとめ
Gemma 4は、Gemini 3の技術を基に構築されたGoogle DeepMindの最新オープンモデルファミリーであり、オープンソース(Apache 2.0)・マルチモーダル・長コンテキストという特徴を組み合わせている。E2B/E4Bはオンデバイスでの実用性を重視し、26B A4BはMixture‑of‑Expertsで高い知能を低い推論コストで提供し、31B Denseは最高品質の生成能力を目指す。ハイブリッド注意機構、Per‑Layer Embeddings、MoE、共有KVキャッシュといった設計により、長文や複数モダリティを効率的に扱えることが大きな魅力である。2025年1月までのデータを基に多言語対応やコード生成能力を備え、包括的な安全性評価を経て公開されている。これにより、研究者や企業はGemma 4を自由に活用し、独自のアプリケーションやエージェントの開発を進めることができる。
PCに要求されるスペックはどの程度ですか
Gemma 4をローカルPCで動かす場合、モデルサイズごとに必要スペックが大きく変わるのがポイントです。 ざっくり言うと「スマホ〜GPUワークステーションまで全部対応」という設計です。🔧 Gemma 4の必要スペック(モデル別)
🟢 軽量モデル(E2B / E4B)→ ノートPC・ミニPC向け
■ E2B(約2.3B 有効パラメータ)
- RAM:4〜8GB
- GPU:不要(CPUでも可)
- 推奨:軽量GPU(RTX 3050など)で高速化
- ストレージ:数GB
- 1.5GB以下でも動作可能(量子化時)
- スマホ・Raspberry Piでも動くレベル
■ E4B(約4.5B 有効)
- RAM:8〜16GB
- GPU:なくてもOK(あると快適)
- 推奨GPU:RTX 3060クラス
- 日常用途(チャット・簡単な画像解析)なら十分
🟡 中規模(26B MoE)→ 一般的なGPUマシン
■ 26B(MoEモデル)
- VRAM:
- 量子化なし → 40〜80GB(かなり重い)
- 量子化あり → 16〜24GB程度
- GPU:RTX 3090 / 4090クラス
- RAM:32GB以上
- 計算量は軽い(実質4B並)だが
- メモリは26B分必要
- RTX 4090(24GB)+量子化 → ◎現実的
- RTX 3080(10GB) → 厳しい
🔴 大規模(31B Dense)→ 研究者向け
■ 31B Dense
- VRAM:80GB級(H100 1枚)
- GPU:H100 / A100 / 複数GPU
- RAM:64GB以上
- 最高性能だが完全にサーバー用途
💡 まとめ(現実的な選び方)
| 用途 | おすすめ |
|---|---|
| 軽く試したい | E2B(ノートPCでもOK) |
| 実用チャット・画像 | E4B |
| 本格ローカルAI | 26B(RTX4090) |
| 研究・最高性能 | 31B |
🎯 タナカさん向けの現実的ライン
もし今の環境が普通のPCなら: 👉 一番おすすめ- E4B or 26B(量子化)
- RTX 3060以上 → E4B快適
- RTX 4090 → 26Bがベスト
⚠️ 重要なポイント(見落としがち)
- MoEは「軽い」のは計算だけ → メモリは重い
- 量子化(4bitなど)前提で考えると現実的
- SSD必須(モデル読み込みが重い)
必要なら 👉「あなたのPCスペックでどこまで動くか」 👉「最適な構成(GPU選定)」 かなり具体的に出せます。
Gemmaでmulmo claudeのような使い方はできますか?
結論から言うと: 👉 Gemma 4でも mulmo claude的な使い方は「可能」ですが、そのままではできず“自分で組む必要あり”です。 (=仕組み的にはできるが、完成品ではない)🧠 まず整理:mulmo claudeとは何をしているのか
あなたが見ている **mulmo claude(MulmoClaude)**は、ざっくり言うと👇- LLM(Claudeなど)
-
- ローカルデータ(メモ・PDF・履歴)
-
- エージェント機能(ツール呼び出し)
-
- CLI / 自動化
🔥 Gemma 4で同じことはできるか?
✔ 結論
👉 できる(むしろ向いてる) 理由:- オープンモデル(ローカル実行OK)
- 関数呼び出し対応【Gemma4】
- 長コンテキスト(最大256K)【Gemma4】
- マルチモーダル対応(画像・音声も可)
⚙️ ただし重要:そのままではmulmoにはならない
Gemmaはあくまで👇 👉 「頭脳(LLM)」だけ mulmo claudeは👇 👉 「頭脳+記憶+手足」🧩 必要な構成(mulmo風にするなら)
① LLM(脳)
- Gemma 4(E4B or 26B)
② ベクトルDB(記憶)
- Chroma
- FAISS
- Weaviate
③ RAG(検索)
- LangChain / LlamaIndex
④ エージェント(手足)
- LangGraph
- CrewAI
- OpenInterpreter系
- ファイル読む
- コマンド実行
- Web操作
⑤ UI / CLI
- CLI(mulmoっぽい)
- Web UI(ChatUIなど)
💻 全体像(mulmo風)
[あなた]
↓
[CLI / UI]
↓
[Agent(LangGraph)]
↓
[Gemma 4]
↓
[ベクトルDB(記憶)]
🧪 実際の難易度
難易度感
| レベル | 内容 |
|---|---|
| ★☆☆ | Chatとして使う |
| ★★☆ | RAG追加 |
| ★★★ | mulmoレベル |
🚀 Gemmaを使うメリット(mulmoより良い点)
✔ 完全ローカル
- データ漏洩リスク低い
✔ カスタマイズ自由
- 好きなツール連携できる
✔ 軽いモデルもある
- 小型でも動く
⚠️ 注意点(重要)
❌ Claudeより弱い部分
- 推論力(特に小型モデル)
- 日本語精度(やや劣る場合あり)
- 26B以上使う
- RAGで補強
🎯 タナカさん向けおすすめ構成
あなたの用途(技術・業務・資料)なら👇 👉 これがベスト- Gemma 4(26B)
-
- Chroma(ローカルDB)
-
- LangChain
-
- CLI
🔥 一言でいうと
👉 mulmo claudeは「完成品」 👉 Gemmaは「素材」👍 まとめ
- Gemmaでmulmo的運用 → 可能
- ただし → 自分で組む必要あり
- 本質 → RAG + エージェント + ローカルLLM
必要なら👇 「最短でmulmo風を作る手順」 「あなたのPCで動く構成」 かなり具体的に設計できます。
ローカルLLMはclaude codeのようなエージェント的な動きは難しいですか
結論から言うと: 👉 ローカルLLMでも Claude Code のようなエージェント動作は可能です。 ただし 👉 「そのままでは弱い」「設計で補う必要がある」 というのがリアルなところです。🧠 Claude Codeが強い理由(ここが本質)
まず、Claude Code がなぜ強いか:✔ ① 推論力が高い
- 長いタスクを分解できる
- エラーから修正できる
✔ ② ツール連携が標準
- ファイル編集
- コマンド実行
- Git操作
✔ ③ ループが安定
- 「考える → 実行 → 修正」が自然に回る
⚠️ ローカルLLMの難しさ
❌ ① 推論が弱い(特に小型)
- タスク分解が雑
- 途中で迷子になる
❌ ② 長期ループが壊れやすい
- 状態管理が苦手
- 前の意図を忘れる
❌ ③ ツールの使い方が雑
- 間違ったコマンド
- ファイル破壊
🔥 じゃあ無理? → NO(設計で解決できる)
🧩 ローカルでエージェント化する方法
① モデル選定(ここ超重要)
👉 最低ライン- Gemma 4 → 26B以上(推奨)
- 小型(E2B/E4B) → 補助用途
② エージェントフレームワーク
代表例:- LangGraph
- CrewAI
- OpenInterpreter
③ 制御を“人間が設計する”
これが一番重要👇Claude Code
👉 モデルが自律的にやるローカル
👉 人間がルールを書く④ 安定化テク(ここが差になる)
✔ ステップ分割(超重要)
① タスク分解
② 実行
③ 検証
④ 修正
👉 1発でやらせない
✔ ツール制限
- 触れるファイル限定
- コマンド制限
✔ チェック用モデルを別に用意
- メイン:Gemma 26B
- サブ:小型モデル
✔ 強制ログ保存
👉 状態を忘れさせない🧪 実際のレベル感
Claude Code
👉 ★★★★★(ほぼ完成)ローカル(素の状態)
👉 ★☆☆☆☆ローカル(ちゃんと設計)
👉 ★★★★☆ ←ここまでいける🎯 タナカさん的に現実的な構成
あなたの用途(技術・業務・資料)なら👇🔧 おすすめ構成
Gemma 4(26B)
+ LangGraph
+ ローカルファイル操作
+ 制限付きコマンド実行
👉 これで
「簡易Claude Code」レベルまでいける
💡 重要な気づき
👉 Claude Codeは 「モデルがすごい」だけじゃない 👉 本質は 設計(エージェント制御)🔥 一言まとめ
👉 ローカルLLMは “そのままでは弱いが、設計すればかなり戦える”もしやるなら👇
- 「最小構成(すぐ動くやつ)」
- 「あなたのPCでの最適構成」
- 「工作センター業務に合わせたエージェント設計」
ローカルLLMの良い使い方を教えて
ローカルLLMの良い使い方は、ひとことで言うと 「一般常識を全部まかせる」のではなく、手元データを安全に扱う“専用作業機”として使うことです。 Gemmaのようなオープンモデルは、ローカル実行やLM Studio / Ollamaでの運用、ツール呼び出し、長めのコンテキストに向いています。GoogleもGemmaをローカル実行向けに案内しており、OllamaやLM Studioで動かせます。Ollamaはツール呼び出しをサポートし、LM Studioはダウンロード済みモデルの会話や文書処理をローカルで完結できると案内しています。 (Google AI for Developers)いちばん相性がいい使い方
1. 社内文書・自分の資料の横断検索
ローカルLLMの本命はこれです。 規程、手順書、見積メール、議事メモ、研究メモ、PDF、過去の報告書をまとめて読み込ませて、 「この作業の注意点は何か」 「前回の見積条件は何だったか」 「この安全基準に関係する記述だけ抜き出して」 のように聞く使い方です。 LM Studioは文書をそのまま会話に入れたり、ローカルRAG的に扱う機能を案内していますし、Gemma 4は長いコンテキストや文書理解を強みとして打ち出しています。 (LM Studio)2. 下書き生成
メール、議事録、手順書、報告文、申請文のたたき台作成です。 これはクラウドAIでもできますが、ローカルLLMだと未公開情報や個人名、見積条件、学内事情を気にせず投げやすいのが強みです。 特に「このテンプレに合わせて整える」「この言い回しを丁寧にする」「箇条書きを文書化する」系は、モデルの絶対性能よりも、手元情報を安全に扱えることの価値が大きいです。LM Studioはオフライン動作時、入力内容が端末外に出ないと説明しています。Ollamaもローカル実行時はプロンプトやデータを見ないとFAQで案内しています。 (LM Studio)3. コードやスクリプトの補助
「ゼロから巨大アプリを自律開発」より、 Pythonスクリプト修正、正規表現作成、CSV整形、簡単な自動化、シェルコマンドの雛形作成、既存コードの説明、のほうが相性がいいです。 Gemma 4はコード生成やエージェントワークフロー向けをうたっており、Ollamaもツール呼び出しを備えているため、ローカルで補助的なコーディング作業には向いています。 (blog.google)4. 画像・PDF・画面の読み取り
Gemma 4系は画像理解や文書解析を想定しており、OCR、グラフ理解、画面やUI理解などを公式に挙げています。 そのため、 「このPDFの要点を抜く」 「この表の異常値だけ拾う」 「この画面の操作手順を説明する」 のような用途はかなり実用的です。 特に現場資料、機械マニュアル、図面まわりの補助説明に向いています。 (Google AI for Developers)5. 個人ナレッジベース
メモ、日報、発想メモ、会話ログ、失敗事例、チェックリストを蓄積して、 「前に似たトラブルってあった?」 「自分はこの件で過去に何を気にしていた?」 と聞ける状態にすると、ローカルLLMの価値がかなり上がります。 これは一般知識モデルとして使うより、自分専用の第二の記憶として使う発想です。LM Studioのローカル文書対話や、Gemma 4の長コンテキストはこの方向と相性がいいです。 (LM Studio)あまり向かない使い方
1. 最新情報の確認
ローカルLLM単体は、学習データ以降のニュース、価格、制度変更、製品更新に弱いです。 Gemma 4のモデルカードでも、学習データにはカットオフがあり、モデルは古い事実や不正確な内容を出す可能性があると示されています。 なので、最新情報は必ずWeb検索や外部ツールと組み合わせたほうが安全です。 (Google AI for Developers)2. 何でも丸投げの自律エージェント
「調べて、考えて、実行して、直して、完成まで全部自動」は、ローカルLLMだけだと不安定になりがちです。 できなくはないですが、ツール制御、手順分割、検証ステップ、失敗時の巻き戻しを人間が設計したほうが安定します。 Ollamaにはツール呼び出しがありますが、それは“可能にする部品”であって、“高品質な自律完走”を保証するものではありません。 (Ollama)3. 高い正確性が必要な法務・医療・会計の最終判断
ローカルLLMは、一次整理や条文の候補抽出、論点メモまでは有効です。 でも最終判断は人間か専門家が行う前提が安全です。 モデルカードでも訓練データの偏りや誤情報の可能性が明示されています。 (Google AI for Developers)うまく使うコツ
コツ1: 「質問」より「作業依頼」にする
悪い例 「これどう思う?」 良い例 「以下の文章を、学内向けの丁寧な依頼メールに直して。曖昧表現をなくして。件名案を3つ出して。」 ローカルLLMは雑談より、入力と出力の形が決まっている仕事で力を出しやすいです。コツ2: 先に材料を渡す
「一般論で答えて」ではなく、- 元文
- 関係資料
- 目的
- 文体
- 出力形式
コツ3: 1回で完成を狙わない
まずは- 要点抽出
- 構成案
- 草案
- 修正
- 最終整形
コツ4: ローカル保存する情報を決める
おすすめは、頻繁に参照するけれど外に出したくない情報です。 たとえば、業務マニュアル、過去メール、見積条件、研究メモ、申請書、議事録、個人メモです。 逆に、ネットで毎回調べたほうがいい最新情報は、無理にローカル知識化しなくて大丈夫です。コツ5: 小さいモデルは“補助担当”にする
軽いモデルは- 要約
- 分類
- リライト
- タグ付け
- 文体調整
目的別のおすすめ運用
仕事で使うなら
- メール下書き
- 会議メモの整理
- 規程や手順書の検索
- PDF要約
- 提案書のたたき台
- 過去案件の再利用
技術用途なら
- Pythonやシェルの補助
- ログの要約
- エラー原因の候補出し
- 図面やマニュアルの説明
- 実験メモの整理
私用なら
- 家計メモ整理
- 日記要約
- 買い物比較メモ
- 子どもの記録整理
- 自分専用FAQ
いちばんおすすめの考え方
ローカルLLMは、 「ChatGPTの代わり」より「自分専用の秘書・検索係・下書き係」 として使うと満足度が高いです。 特に向いているのは次の3つです。- 外に出したくない情報を扱う
- 繰り返し発生する文書仕事を速くする
- 自分の資料を横断して思い出す





