Google製軽量AIモデル「Gemma 4 12B」がエンコーダー不要で画像・音声を処理する仕組み

概要

Googleが2026年6月3日に公開した軽量マルチモーダルAIモデル「Gemma 4 12B」は、16GBのVRAM（またはユニファイドメモリ）で動作しつつ、エンコーダー不要で画像と音声を処理できる珍しいアーキテクチャを持つ。Google DeepMindのマールテン・グルーテンドルスト氏が詳細な解説を公開。

エンコーダー不要の仕組み

画像処理

一般的なマルチモーダルモデルはエンコーダーで画像を「埋め込み」に変換 → コネクターでLLM向けデータに整形
Gemma 4 12Bはエンコーダーを省き、パラメーター数3500万の埋め込みモジュールのみ使用
画像を48×48ピクセルのパッチに分割し、直接3840次元に投影
※3500万パラメーターはエンコーダーの縮小版ではなく、単純にピクセル投影に必要なパラメーター数

音声処理

音声を40ミリ秒ごとに区切り、音の高低をトークン化してそのままLLMに処理させる
音声はもともと2次元シーケンスであり、テキストと同様にLLMで処理可能
従来のGemma 4シリーズ（E2B/E4B）が持っていたパラメーター数3億500万の音声エンコーダーが不要に

スペック

パラメーター数: 12B（120億）
動作環境: 16GB VRAM / ユニファイドメモリ（ノートPC対応）
ライセンス: Apache 2.0（無料公開）
性能: Gemma 4 26B A4Bに近い水準

参照

出典: GIGAZINE（2026/06/04）
解説: A Visual Guide to Gemma 4 12B by Maarten Grootendorst
はてなブックマーク数: 27