自己改善エージェントはなぜ前提を覆せないのか——局所最適とハーネスでの脱出（LayerX）

概要

LayerXのエンジニアがAI Workflowをエージェントに自己改善させる際に起きる「最初の前提を覆せない問題」を考察した記事。エージェントは入力データと正解データをもとに精度を改善できるが、プロンプトの加筆や出力正規化（文字列置換・正規表現）に留まり、処理の順序や設計そのものを変える提案はなかなか出てこない現象を分析している。

詳細

エージェントの自己改善は90%前後で停滞し、残り数%のラストワンマイル改善に届かない
改善案がプロンプト加筆と出力正規化に収束し、「設計そのものが間違っているのではないか」という仮説が出てこない
人間は「失敗原因の分析→既存設計では拾えないパターン探索→要件・設計の見直し」という上位レイヤーの探索ができる
エージェントが探索している範囲が狭い（局所最適にはまっている）ことが原因と考えられる
解決策としてハーネス（評価環境の設計）や上位レイヤーの探索を促す仕組みが必要

参照

出典: https://zenn.dev/layerx/articles/b36ceffe6b5e20
はてなブックマーク数: 28