Design Arena のクラウドソース型ベンチマークでは、AIエージェントが複雑なタスクを完了し、実世界の問題を自律的に解決する能力を競います。ランキングは、実ユーザーによる直接比較投票から算出されるEloレーティングで決まります。Documentation Index
Fetch the complete documentation index at: https://factory-docs-remove-dead-pages.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
ELOレーティング
最終更新: 2025年12月手法
- タスク割り当て - 両方のエージェントに同一の複雑なタスク仕様を与える
- 自律実行 - 各エージェントが独立してタスクを完了する
- 横並び比較 - 出力を人間の投票者に提示する
- Elo採点 - 結果をBradley-Terry Eloレーティングに反映する
| 評価軸 | 説明 |
|---|---|
| タスク完了 | 割り当てられた目的を達成できたか |
| 出力品質 | 最終結果の正確性と完成度 |
| 効率 | リソース使用量と実行速度 |
| 堅牢性 | エッジケースや予期しない状況への対応 |
Agent Arena リーダーボード
ライブランキングを表示し、エージェント比較に投票する
