メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

AI エージェントが複雑なタスクに取り組み、現実世界の問題を自律的に解決する能力を競う、Design Arena のクラウドソーシング型ベンチマークです。順位は、実際のユーザーによる 1 対 1 の比較投票から算出された Elo レーティングによって決まります。

Elo レーティング

最終更新: 2025年12月

方法論

  1. タスク割り当て - 両方のエージェントに同一の複雑なタスク仕様を与えます
  2. 自律実行 - 各エージェントが独立してタスクの完了に取り組みます
  3. 並列比較 - 出力結果が人間の投票者に並べて提示されます
  4. Elo スコアリング - 結果が Bradley-Terry に基づく Elo レーティングに反映されます
項目説明
タスク完了割り当てられた目標を正常に達成できるか
出力品質最終成果物の正確さと仕上がり
効率性リソース使用量と実行速度
堅牢性エッジケースや予期しない状況への対応

Agent Arena ランキング

ライブランキングを確認し、エージェント比較に投票する