Agents' Last Exam(ALE)でGPT-5.5が首位 ── Claude Fable 5は55産業ツールベンチマークで敗北
概要
UC Berkeley RDIと300人超の専門家が構築した実務型AIベンチマーク「Agents' Last Exam(ALE)」で、GPT-5.5がClaude Fable 5を上回り首位を獲得した。55の産業分野でプロ仕様のソフトウェア操作を直接課す、極めて実戦的な評価指標だ。
詳細
- ALE概要: 55産業分野のプロ向けソフトウェアを実際に操作させるエージェント評価ベンチマーク
- UC Berkeley RDI(信頼できるインテリジェントシステム研究所)と300人超の専門家が設計
- 発表直後から注目を集めたClaude Fable 5だが、ALEではGPT-5.5が首位
- 純粋な知識・推論テストではなく、実際のツール操作能力を測定する点が特徴
- AIモデルの「実務における労働能力」の測定に特化した設計思想
参照
- 出典: https://xenospectrum.com/agents-last-exam-benchmark-gpt-5-5-beats-claude-fable-5/
- はてなブックマーク ITホットエントリー(2026年6月13日)