対話システムの評価をLLMにどこまで任せられるか——5つの落とし穴（前編）

概要

対話システムの受け入れテストにLLMを活用する際の限界と落とし穴を解説した技術記事。シナリオ生成も評価もLLMに任せたくなるが、生成発話品質・評価バイアス・譲歩問題など5つの本質的課題がある。

対話システムを「エンドユーザーが使えるか」の観点で受け入れテストする際、シナリオ生成も評価もLLMに任せることが増えている
5つの落とし穴：①生成発話のクオリティのばらつき、②LLM as a Judgeの限界（同モデル評価バイアス）、③LLMベースシミュレーターの「譲歩問題」（システム側の誤りに同調する）、④評価基準の暗黙化、⑤合成データの分布バイアス
特に「譲歩問題」は対話システム特有の課題：LLMシミュレーターが対話の相手役に徹しようとして、システムの誤った回答に同調してしまう