AIのLLMアーキテクチャの新技法「KV共有」「mHC」「圧縮アテンション」とは何か？

概要

LLMリサーチエンジニアのSebastian Raschka氏が2026年4〜5月リリースのLLMを分析し、長文コンテキスト効率化に向けた新しいアーキテクチャ技法を解説。KVキャッシュのサイズ・メモリ帯域・アテンションコスト削減が主テーマ。

詳細

KV共有（KV Sharing）：後続レイヤーが先行レイヤーのKey-Value状態を再利用しメモリを節約（Gemma 4で採用）
mHC（Multi-Head Compression）：アテンションヘッドの情報を圧縮して保持するDeepSeek V4の手法
圧縮アテンション（Compressed Attention）：ZAYA1-8Bが採用した畳み込みベースのアテンション圧縮（CCA）
Laguna XS.2：レイヤーごとに異なるアテンションバジェットを割り当てる手法
推論モデル・エージェントワークフローの普及でより長い文脈を保持する必要が生じており、これらの技法が重要になっている

参照

出典: https://gigazine.net/news/20260614-recent-developments-in-llm-architectures/
原論文: https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures
はてなブックマーク数: 12