Skip to main content

Google製軽量AIモデル「Gemma 4 12B」がエンコーダー不要で画像・音声を処理する仕組み

概要

Googleが2026年6月3日に公開した軽量マルチモーダルAIモデル「Gemma 4 12B」は、16GBのVRAM(またはユニファイドメモリ)で動作しつつ、エンコーダー不要で画像と音声を処理できる珍しいアーキテクチャを持つ。Google DeepMindのマールテン・グルーテンドルスト氏が詳細な解説を公開。

エンコーダー不要の仕組み

画像処理

音声処理

スペック

参照