Legacy Bench - Factory Documentation

Factory が提供する、COBOL、Java 7、BASIC、C89、Fortran、Assembly にまたがるレガシーエンジニアリングタスクでの AI エージェント性能を測定するベンチマークです。

最終更新: 2026年4月

項目	説明
タスクセット	6 つのレガシー言語ファミリーにまたがる数百件のタスクと、代表的な 10 件の公開サンプル
タスク形式	自然言語の指示、コンテナ化されたソース環境、参照実装、非公開の検証テスト
タスク種別	バグ修正、実装、移行、その他のレガシーエンジニアリング作業
評価	仕様理解、動作するコードの生成、検証通過をエージェントに求める Harbor 互換タスク
スコアリング	12 のモデル・エージェント組み合わせにおける非公開テストの合格率

言語	割合	代表的な分野
COBOL	46%	金融決済、給与処理、保険請求、通信課金、VSAM ファイル処理
Java 7	32%	エンタープライズミドルウェア、CDR 処理、倉庫物流、バイナリ解析、EJB パターン
BASIC	6%	業務アプリケーション、会計、データ処理
C89	5%	システムプログラミング、低レベルデバッグ、プロトコル実装
Fortran	5%	科学技術計算、数値計算、物理シミュレーション
Assembly	5%	x86 ファームウェア解析、プロトコルデコード、ハードウェアシミュレーション

Java 7 のバグ修正では、コンパイラとランタイムのフィードバックによってエラーが表面化しやすいため、エージェントは最も高いスコアを記録しています。一方で最も難しいのは COBOL で、どのモデルも解けなかった 44 件のタスクのうち 31 件を COBOL が占めています。

Legacy-Bench

GitHub でサンプルタスクと評価ハーネスを見る

Legacy-Bench: AI エージェントは世界で最も重要なソフトウェアを保守できるのか？