OpenAIが「AIにバレずにAIをテストする手法」Deployment Simulationの開発に成功
概要
OpenAIが「Deployment Simulation」と呼ぶ新しいAI安全リスク評価手法を発表した。旧世代モデルを使って新世代モデルの実世界での動作をシミュレーションすることで、AIがテスト中であることを認識してしまうバイアスを排除し、製品化後の望ましくない動作発生率をより正確に予測できるようになった。
詳細
- 従来のデータセットベースのテスト手法の問題点:網羅困難・新攻撃手法への対応が遅い・AIがテスト中と認識してしまうバイアス
- Deployment Simulation:GPT-5を使ってGPT-5.1の実世界動作をシミュレーションするなど、旧世代で新世代を模倣する手法
- テスト時と製品化後の「望ましくない動作発生率」の乖離を大幅に縮小することに成功
- AIの安全評価フレームワークの精度向上に寄与する重要な技術的前進