Factory が提供する、COBOL、Java 7、BASIC、C89、Fortran、Assembly にまたがるレガシーエンジニアリングタスクでの AI エージェント性能を測定するベンチマークです。Documentation Index
Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
結果 — 総合合格率
最終更新: 2026年4月方法論
| 項目 | 説明 |
|---|---|
| タスクセット | 6 つのレガシー言語ファミリーにまたがる数百件のタスクと、代表的な 10 件の公開サンプル |
| タスク形式 | 自然言語の指示、コンテナ化されたソース環境、参照実装、非公開の検証テスト |
| タスク種別 | バグ修正、実装、移行、その他のレガシーエンジニアリング作業 |
| 評価 | 仕様理解、動作するコードの生成、検証通過をエージェントに求める Harbor 互換タスク |
| スコアリング | 12 のモデル・エージェント組み合わせにおける非公開テストの合格率 |
ベンチマーク構成
| 言語 | 割合 | 代表的な分野 |
|---|---|---|
| COBOL | 46% | 金融決済、給与処理、保険請求、通信課金、VSAM ファイル処理 |
| Java 7 | 32% | エンタープライズミドルウェア、CDR 処理、倉庫物流、バイナリ解析、EJB パターン |
| BASIC | 6% | 業務アプリケーション、会計、データ処理 |
| C89 | 5% | システムプログラミング、低レベルデバッグ、プロトコル実装 |
| Fortran | 5% | 科学技術計算、数値計算、物理シミュレーション |
| Assembly | 5% | x86 ファームウェア解析、プロトコルデコード、ハードウェアシミュレーション |
Legacy-Bench
GitHub でサンプルタスクと評価ハーネスを見る
解説を読む
Legacy-Bench: AI エージェントは世界で最も重要なソフトウェアを保守できるのか?
