メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://factory-docs-auto-sync-jp-docs.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

オープンソースの droid-code-review-evals によるベンチマークで、コードレビューにおいて AI モデルが実際のバグをどれだけ見つけられるかを測定します。Sentry、Grafana、Keycloak、Discourse、Cal.com という 5 つの大規模オープンソースコードベースの 50 件の PR を対象に、最前線モデルおよびオープンソースモデル 13 種を評価し、人手でキュレーションされた 167 件の検証済みバグからなるゴールデンセットを基準にスコアリングしています。

コストと品質

モデル平均 F1コスト / PR
GPT-5.260.5%$1.25
Claude Opus 4.659.8%$3.11
Claude Sonnet 4.657.9%$1.15
Claude Opus 4.756.4%$4.18
GLM-5.156.3%$1.06
GPT-5.3 Codex56.2%$1.69
Gemini 3.1 Pro52.6%$2.04
GPT-5.4 Mini52.0%$0.68
Kimi K2.551.9%$0.41
Gemini 3 Flash50.0%$0.34
GPT-5.547.9%$5.63
GPT-5.447.5%$2.01
MiniMax M2.745.6%$0.15
最終更新: 2026年4月 品質面では GPT-5.2 が首位で、Claude Opus 4.6 の約 40% のコストで同等以上の性能を示しています。Kimi K2.5 や MiniMax M2.7 のようなオープンソースモデルは、GPT-5.2 の品質の約 75〜86% を、PR あたり約 3〜8 倍低いコストで実現しており、複数パスやアンサンブルによるレビュー戦略を現実的にします。

方法論

項目説明
テストセットPython、Go、Java、Ruby、TypeScript を含む 5 リポジトリ(Sentry、Grafana、Keycloak、Discourse、Cal.com)の 50 件の PR
ゴールデンセット正確なファイル/行位置とバグ種別分類を含む、人手で検証済みの 167 件のバグ(v3)
モデル評価各モデルが標準化されたプロンプトを使い、Droid Action 経由ですべての PR をレビュー
LLM judge独立した LLM が、意味的同等性に基づいてモデルコメントとゴールデンコメントを照合
クロスジャッジ検証採点バイアスを抑えるため、照合結果の一部を第 2 の judge で確認
F1 計算F1 は適合率(コメントのうち実際のバグである割合)と再現率(ゴールデンバグのうち検出できた割合)を組み合わせた指標
複数回実行一貫性を測定するため、各モデルを複数回実行して評価
外れ値の除外エラーになった実行やトークン上限に達した実行は除外

Review Droid Benchmark

GitHub で完全な方法論、ローデータ、スコアリングスクリプトを見る

解説を読む

どのモデルがコードレビューに最も優れているか?