メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-remove-dead-pages.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Design Arena のクラウドソース型ベンチマークでは、AIエージェントが複雑なタスクを完了し、実世界の問題を自律的に解決する能力を競います。ランキングは、実ユーザーによる直接比較投票から算出されるEloレーティングで決まります。

ELOレーティング

最終更新: 2025年12月

手法

  1. タスク割り当て - 両方のエージェントに同一の複雑なタスク仕様を与える
  2. 自律実行 - 各エージェントが独立してタスクを完了する
  3. 横並び比較 - 出力を人間の投票者に提示する
  4. Elo採点 - 結果をBradley-Terry Eloレーティングに反映する
評価軸説明
タスク完了割り当てられた目的を達成できたか
出力品質最終結果の正確性と完成度
効率リソース使用量と実行速度
堅牢性エッジケースや予期しない状況への対応

Agent Arena リーダーボード

ライブランキングを表示し、エージェント比較に投票する