Google製軽量AIモデル「Gemma 4 12B」がエンコーダー不要で画像・音声を処理する仕組み
概要
Googleが2026年6月3日に公開した軽量マルチモーダルAIモデル「Gemma 4 12B」は、16GBのVRAM(またはユニファイドメモリ)で動作しつつ、エンコーダー不要で画像と音声を処理できる珍しいアーキテクチャを持つ。Google DeepMindのマールテン・グルーテンドルスト氏が詳細な解説を公開。
エンコーダー不要の仕組み
画像処理
- 一般的なマルチモーダルモデルはエンコーダーで画像を「埋め込み」に変換 → コネクターでLLM向けデータに整形
- Gemma 4 12Bはエンコーダーを省き、パラメーター数3500万の埋め込みモジュールのみ使用
- 画像を48×48ピクセルのパッチに分割し、直接3840次元に投影
- ※3500万パラメーターはエンコーダーの縮小版ではなく、単純にピクセル投影に必要なパラメーター数
音声処理
- 音声を40ミリ秒ごとに区切り、音の高低をトークン化してそのままLLMに処理させる
- 音声はもともと2次元シーケンスであり、テキストと同様にLLMで処理可能
- 従来のGemma 4シリーズ(E2B/E4B)が持っていたパラメーター数3億500万の音声エンコーダーが不要に
スペック
- パラメーター数: 12B(120億)
- 動作環境: 16GB VRAM / ユニファイドメモリ(ノートPC対応)
- ライセンス: Apache 2.0(無料公開)
- 性能: Gemma 4 26B A4Bに近い水準
参照
- 出典: GIGAZINE(2026/06/04)
- 解説: A Visual Guide to Gemma 4 12B by Maarten Grootendorst
- はてなブックマーク数: 27