メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-remove-dead-pages.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Factory のベンチマークは、COBOL、Java 7、BASIC、C89、Fortran、AssemblyにまたがるレガシーエンジニアリングタスクでAIエージェントの性能を測定します。

結果 — 全体合格率

最終更新: 2026年4月

手法

段階説明
タスクセット6つのレガシー言語ファミリーにまたがる数百件のタスクと、10件の代表的な公開サンプル
タスク形式自然言語の指示、コンテナ化されたソース環境、参照解、非公開の検証テスト
タスク種別バグ修正、実装、移行、その他のレガシーエンジニアリング作業
評価エージェントが仕様を理解し、動作するコードを生成し、検証を通過する必要があるHarbor互換タスク
採点12のモデル/エージェント組み合わせについて、非公開テストの合格率で採点

ベンチマーク構成

言語割合例のドメイン
COBOL46%金融決済、給与処理、保険請求、通信課金、VSAMファイル処理
Java 732%エンタープライズミドルウェア、CDR処理、倉庫物流、バイナリ解析、EJBパターン
BASIC6%ビジネスアプリケーション、会計、データ処理
C895%システムプログラミング、低レベルデバッグ、プロトコル実装
Fortran5%科学技術計算、数値手法、物理シミュレーション
Assembly5%x86ファームウェア解析、プロトコルデコード、ハードウェアシミュレーション
エージェントはJava 7のバグ修正で最も高いスコアを出します。コンパイラとランタイムのフィードバックがエラーを明らかにするためです。COBOLは依然として最も難しく、どのモデルも解けなかった44件のタスクのうち31件がCOBOLでした。

Legacy-Bench

GitHubでサンプルタスクと評価ハーネスを表示する

解説記事を読む

Legacy-Bench: AIエージェントは世界で最も重要なソフトウェアを保守できるのか?