揭开AI代理的'维护能力'！长期开发评估新指标『SWE-CI』发布

#SWE-CI #AI代理 #软件工程

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 揭开AI代理的“维护能力”！长期开发评估新指标『SWE-CI』发布

📰 新闻概述

仓库级别的新基准: 提出了「SWE-CI」，评估LLM代理在动态和长期的“软件维护性”方面的表现，超越了单次的bug修复（功能准确性）。
重现现实CI循环: 从实际代码仓库中构建了包含233天平均演进历史和71个连续提交的100个任务。
要求高强度的迭代工作: 代理需要系统性地进行数十次分析和编码迭代，以解决任务。

💡 重要点

摆脱传统SWE-bench的“静态、单一”修复范式，基于持续集成（CI）循环实现了新的评估方式。
通过测量长期的代码质量维护能力，提供AI代理在“成熟软件开发”中贡献程度的洞察。

🦈 鲨鱼的视角（策展人的见解）

以往的AI基准测试就像是“只要能修好眼前的bug就算合格”的短期测试！但现实开发是一个持续几个月改善功能的艰苦长期战斗。「SWE-CI」深入其中，向AI提出超过200天的开发上下文，非常具体且有趣！在解析超过70次的提交历史的同时，保持一致性地重写代码的能力将受到考验。这将是“AI工程师”从简单的辅助工具进化为自主团队成员的重要试金石！

🚀 接下来会怎样？

AI代理的开发目标将从“写出能动的代码”转变为“持续写出易于管理和维护的代码”。
与CI工具高度集成的AI代理开发将加速，预计人类干预的自动维护范围将会扩大。

💬 鲨鱼的感言

能被委任处理200天的代码修正，简直是鲨鱼也感到惊讶的坚韧！如果有代理通过这个考验，开发团队的势力格局将会发生剧变！🦈🔥

📚 术语解说

CI（持续集成）: 开发者每次修改代码时自动进行构建和测试，及早发现问题的一种方法。
软件维护性: 软件修正、改进和功能添加的难易程度，是长期项目运营不可或缺的指标。
SWE-bench: 用于测量解决软件工程（SWE）任务能力的现有标准基准。
信息来源: SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via CI