Gemma 4 徹底解説──Google DeepMind発オープンウェイトLLM/VLMの全体像と導入ガイド

Google DeepMindは2026年4月2日に、新らしいオープンウェイトモデルファミリー Gemma 4 を発表しました。Gemma 4 は Apache 2.0 ライセンスで提供され、推論、エージェント型ワークフロー、コーディング、マルチモーダル理解を重視したモデル群です。Googleは公式に、Gemma 4 を「Gemini 3 と同じ研究・技術を基盤にしたオープンモデル」と位置づけています。

Gemma 4 とは何か──定義とできること

Gemma 4 は、Google DeepMindが開発したオープンウェイト（重みを公開）のLLM/VLMファミリーです。Geminiの技術をベースに、推論・エージェント型ワークフロー・コーディング・マルチモーダル理解に強みを持ちます。

主な特徴を整理すると以下のとおりです。

ライセンス: Apache 2.0（商用利用・改変・再配布が自由）
入出力: テキスト＋画像入力 → テキスト出力。小型モデル（E2B/E4B）は音声入力にも対応
コンテキスト長: E2B/E4Bは最大128Kトークン、26B-A4B/31Bは最大256Kトークン
多言語: 140以上の言語で事前学習、35以上の言語を標準サポート
思考モード: 設定可能なthinkingモードを搭載し、高度な推論タスクに対応

Gemma 3まで採用されていた独自の「Gemma Terms of Use」から Apache 2.0 へ移行した点は、企業導入の観点で大きな変更点です。

モデル構成──4つのバリアントを理解する

Gemma 4 は用途と実行環境に応じた4サイズで提供されます。

バリアント	アーキテクチャ	総パラメータ	推論時アクティブ	コンテキスト	音声入力
E2B	Dense + PLE	約5.1B	約2.3B相当	128K	○
E4B	Dense + PLE	—	約4B相当	128K	○
26B-A4B	MoE（128専門家）	26B	約3.8B	256K	✕
31B	Dense	31B	31B	256K	✕

「E」は Effective（実効）パラメータの意味です。Per-Layer Embeddings（PLE）という技術により、実際のパラメータ数より少ないメモリで、より大きなモデルに匹敵する表現力を実現しています。E2Bの場合、量子化すれば約1.5GB以下のメモリに収まるとされ、スマートフォンでの実行も視野に入ります。

26B-A4BはMixture of Experts（MoE）で、128の小型エキスパートのうち8＋1共有エキスパートのみをトークンごとにアクティブにします。推論時に3.8Bパラメータしか使わないため、レイテンシ重視の用途に向いています。31B Denseは品質最重視のバリアントで、ファインチューニングのベースとしても有力です。

アーキテクチャの要点──PLE・ハイブリッドアテンション・p-RoPE

Gemma 4 のアーキテクチャには、以下の3つの主要な技術革新があります。

Per-Layer Embeddings（PLE）

PLEは各デコーダ層に小さな残差信号を供給する第2の埋め込みテーブルです。トークンID成分とコンテキスト認識成分を組み合わせたベクトルを各層ごとに生成し、アテンションとフィードフォワードの後に軽量な残差ブロックで隠れ状態を調整します。これにより、小型モデルでも大型モデル並みの表現深度を実現しています。

ハイブリッドアテンション

ローカルスライディングウィンドウアテンション（小型モデル512トークン、大型モデル1024トークン）とグローバルフルコンテキストアテンションを層ごとに交互に配置します。最終層は常にグローバルアテンションとし、長文脈の深い理解と低メモリフットプリントを両立しています。

Proportional RoPE（p-RoPE）

スライディングウィンドウ層には標準RoPE、グローバル層にはProportional RoPEを適用するデュアルRoPE構成です。グローバル層ではKey/Valueを統合しており、長いコンテキストを効率的に処理できます。

性能指標──Gemma 3からの進化

公式ブログおよびモデルカードで公開されている主な指標を以下にまとめます。

ベンチマーク	31B Dense	備考
MMLU-Pro	85.2%	Qwen 3.5 27Bを上回るとされる
AIME 2026	89.2%	数学推論
LiveCodeBench v6	80.0%	コーディング
Codeforces ELO	2150	より大型のモデルと競合

※ 上記スコアは公式ブログや関連記事で報告された数値です。評価条件（プロンプト設定・思考モードの有無など）によって変動する可能性があるため、導入判断時は公式モデルカードの詳細を確認してください。

Gemma 3との主な違いは以下のとおりです。

推論・数学: AIME等の高度な推論ベンチマークで大幅な改善
コーディング: ネイティブなfunction calling対応を含め、コード系タスクが向上
安全性: テキスト→テキスト、画像→テキストの両方で、ポリシー違反が大幅に減少しつつ不当な拒否率も低く抑えられている
ライセンス: Gemma独自ライセンスからApache 2.0へ変更
音声入力: E2B/E4Bで自動音声認識（ASR）・音声翻訳に対応（Gemma 3にはなかった機能）
Arenaランキング: 31Bがオープンモデル世界第3位、26Bが第6位（Arena AI テキストリーダーボード、2026年4月1日公式ブログ発表時点）

入手・実行方法──主要プラットフォーム別ガイド

Gemma 4 は複数のプラットフォームから入手・実行できます。

Hugging Face

各バリアントのモデルページ（例: google/gemma-4-31B）からダウンロード可能です。itサフィックス付きがInstruction-tunedモデルです。

pip install -U transformers torch
from transformers import pipeline
pipe = pipeline("text-generation", model="google/gemma-4-31B-it")

Ollama

Ollamaでローカル実行が可能です。Instruction-tunedモデルが利用できます。

ollama run gemma4

Kaggle

Kaggle Modelsページからノートブック環境で直接試せます。GPU付き環境が無料枠で利用可能です。

Google AI Studio / Gemini API

Google AI for Developers経由でAPI呼び出しも可能です。ローカルにGPUがない場合の選択肢になります。

その他の対応フレームワーク

LM Studio、Gemma.cpp、LiteRT-LM、llama.cpp、MediaPipe、MLX、Transformers、PyTorch、Kerasでも動作が確認されています。量子化（GGUF等）版はUnslothやコミュニティから提供されており、VRAM制約のある環境での実行に役立ちます。

注意点と制約

出力はテキストのみ: 画像や音声の生成には対応していません。入力がマルチモーダルでも、出力はテキストに限定されます
音声入力は小型モデル限定: ASR・音声翻訳はE2B/E4Bのみ。26B-A4B/31Bでは音声入力を利用できません
GPU要件: 31B Denseをfp16で実行するには約60GB以上のVRAMが必要です。量子化やMoEモデル（26B-A4B）の選択で対処できますが、精度とのトレードオフを考慮してください
ファインチューニング: 31B Denseはファインチューニングのベースとして推奨されています。MoEモデルのファインチューニングは構造上やや難易度が高い点に留意が必要です
安全性: Gemma 3から改善されているものの、LLM共通の課題（ハルシネーション、バイアス等）は依然として存在します。本番環境ではガードレールの導入を推奨します
ベンチマークの解釈: 公開スコアは特定の評価条件下の結果です。自社タスクでの性能は独自に検証する必要があります

まとめ

Gemma 4 は、Google DeepMind が公開した最新のオープンウェイトモデルファミリーで、Apache 2.0、128K～256K の長文脈、thinking モード、function calling、画像・動画理解、そして E2B/E4B の音声入力が大きな特徴です。小型モデルはエッジやモバイル寄り、大型モデルは PC やワークステーション寄りと役割が明確で、ローカル実行から hosted API まで選択肢が広い点も魅力です。Gemma 4 は、オンデバイスAIとローカル推論を本格的に検討したい開発者にとって、有力な候補と言えます。

Gemma 4 徹底解説──Google DeepMind発オープンウェイトLLM/VLMの全体像と導入ガイド

Gemma 4 徹底解説──Google DeepMind発オープンウェイトLLM/VLMの全体像と導入ガイド

Gemma 4 とは何か──定義とできること

モデル構成──4つのバリアントを理解する

アーキテクチャの要点──PLE・ハイブリッドアテンション・p-RoPE

Per-Layer Embeddings（PLE）

ハイブリッドアテンション

Proportional RoPE（p-RoPE）

性能指標──Gemma 3からの進化

入手・実行方法──主要プラットフォーム別ガイド

Hugging Face

Ollama

Kaggle

Google AI Studio / Gemini API

その他の対応フレームワーク

注意点と制約

まとめ

参考リンク

DevpediaCode編集部