トークンの節約法を「VS Code」開発チームが解説——GitHub CopilotのコストとレイテンシーをAIエージェントで大幅削減

概要

VS Code開発チームが、GitHub Copilotの従量課金移行を受けてトークン効率化の手法を公式ブログで解説した。プロンプトキャッシュの活用と遅延読み込みを組み合わせることでコストとレイテンシーを大幅削減できると説明している。

背景: 2026年6月からGitHub Copilotが従量課金制へ移行し、トークン効率の改善が急務に。モデルが新世代になるほどタスクあたりトークン消費は増加する傾向
トークン浪費の2大要因:
- プロンプトのプレフィックス: システム指示・ツール定義・会話履歴を毎回繰り返すことによるムダ。プロバイダー側でキャッシュすると最大1/10のコストに
- ツール定義のオーバーヘッド: MCPサーバーや拡張機能のツール定義を毎回送ると、コンテキストウィンドウを圧迫
解決策（Tool Search）: 最初はツールの軽量メタデータのみ送信し、モデルが必要とした時点でスキーマ全体を遅延読み込みする手法
OpenAI向け: プレフィックスキャッシュのヒット率を高く保つことが重要
Anthropic向け: キャッシュブレークポイントを明示的に配置してPrefill Cachingを最大活用する必要がある