Terminal Bench - Factory Documentation

ターミナルベースのインターフェースを使って、実世界のソフトウェアエンジニアリングタスクにおける AI コーディングエージェントを評価する、tbench.ai のベンチマークです。エージェントがコードベースをどれだけ効果的に探索し、コマンドを実行し、コマンドライン操作を通じて解決策を実装できるかを測定します。

結果

最終更新: 2025年12月

方法論

カテゴリ	説明
コード探索	関連するコードを見つけて理解する能力
バグ修正	問題の特定と解決
機能実装	新しい機能の追加
リファクタリング	既存コード構造の改善
テスト	テストの作成と実行

タスクは 正確性、効率性、コード品質 に基づいて評価されます。

Terminal Bench ランキング

ライブランキングを確認し、あなたのエージェントを登録する

Next.js

​結果

​方法論

Terminal Bench ランキング

結果

方法論