ターミナルベースのインターフェースを使って、実世界のソフトウェアエンジニアリングタスクにおける AI コーディングエージェントを評価する、tbench.ai のベンチマークです。エージェントがコードベースをどれだけ効果的に探索し、コマンドを実行し、コマンドライン操作を通じて解決策を実装できるかを測定します。Documentation Index
Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
結果
最終更新: 2025年12月方法論
| カテゴリ | 説明 |
|---|---|
| コード探索 | 関連するコードを見つけて理解する能力 |
| バグ修正 | 問題の特定と解決 |
| 機能実装 | 新しい機能の追加 |
| リファクタリング | 既存コード構造の改善 |
| テスト | テストの作成と実行 |
Terminal Bench ランキング
ライブランキングを確認し、あなたのエージェントを登録する
