メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

ターミナルベースのインターフェースを使って、実世界のソフトウェアエンジニアリングタスクにおける AI コーディングエージェントを評価する、tbench.ai のベンチマークです。エージェントがコードベースをどれだけ効果的に探索し、コマンドを実行し、コマンドライン操作を通じて解決策を実装できるかを測定します。

結果

最終更新: 2025年12月

方法論

カテゴリ説明
コード探索関連するコードを見つけて理解する能力
バグ修正問題の特定と解決
機能実装新しい機能の追加
リファクタリング既存コード構造の改善
テストテストの作成と実行
タスクは 正確性効率性コード品質 に基づいて評価されます。

Terminal Bench ランキング

ライブランキングを確認し、あなたのエージェントを登録する