AIのLLMアーキテクチャの新技法「KV共有」「mHC」「圧縮アテンション」とは何か?
概要
LLMリサーチエンジニアのSebastian Raschka氏が2026年4〜5月リリースのLLMを分析し、長文コンテキスト効率化に向けた新しいアーキテクチャ技法を解説。KVキャッシュのサイズ・メモリ帯域・アテンションコスト削減が主テーマ。
詳細
- KV共有(KV Sharing):後続レイヤーが先行レイヤーのKey-Value状態を再利用しメモリを節約(Gemma 4で採用)
- mHC(Multi-Head Compression):アテンションヘッドの情報を圧縮して保持するDeepSeek V4の手法
- 圧縮アテンション(Compressed Attention):ZAYA1-8Bが採用した畳み込みベースのアテンション圧縮(CCA)
- Laguna XS.2:レイヤーごとに異なるアテンションバジェットを割り当てる手法
- 推論モデル・エージェントワークフローの普及でより長い文脈を保持する必要が生じており、これらの技法が重要になっている