メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Factory が提供する、COBOL、Java 7、BASIC、C89、Fortran、Assembly にまたがるレガシーエンジニアリングタスクでの AI エージェント性能を測定するベンチマークです。

結果 — 総合合格率

最終更新: 2026年4月

方法論

項目説明
タスクセット6 つのレガシー言語ファミリーにまたがる数百件のタスクと、代表的な 10 件の公開サンプル
タスク形式自然言語の指示、コンテナ化されたソース環境、参照実装、非公開の検証テスト
タスク種別バグ修正、実装、移行、その他のレガシーエンジニアリング作業
評価仕様理解、動作するコードの生成、検証通過をエージェントに求める Harbor 互換タスク
スコアリング12 のモデル・エージェント組み合わせにおける非公開テストの合格率

ベンチマーク構成

言語割合代表的な分野
COBOL46%金融決済、給与処理、保険請求、通信課金、VSAM ファイル処理
Java 732%エンタープライズミドルウェア、CDR 処理、倉庫物流、バイナリ解析、EJB パターン
BASIC6%業務アプリケーション、会計、データ処理
C895%システムプログラミング、低レベルデバッグ、プロトコル実装
Fortran5%科学技術計算、数値計算、物理シミュレーション
Assembly5%x86 ファームウェア解析、プロトコルデコード、ハードウェアシミュレーション
Java 7 のバグ修正では、コンパイラとランタイムのフィードバックによってエラーが表面化しやすいため、エージェントは最も高いスコアを記録しています。一方で最も難しいのは COBOL で、どのモデルも解けなかった 44 件のタスクのうち 31 件を COBOL が占めています。

Legacy-Bench

GitHub でサンプルタスクと評価ハーネスを見る

解説を読む

Legacy-Bench: AI エージェントは世界で最も重要なソフトウェアを保守できるのか?