※この記事はアフィリエイト広告を含みます
AI时代来临!Anthropic展示“递归自我改进”的震撼数据
📰 新闻概览
- 开发主导权转向AI: Anthropic将开发流程中的许多部分委托给AI系统,工程师每季度交付的代码量达到了2021-2025年平均的8倍。
- 自律性能显著提升: Claude Opus 4.6能够自主完成需要人类12小时的软体任务,而Claude Mythos Preview甚至记录了超过16小时的连续运行。
- 基准测试的饱和: 在软件工程测试“SWE-bench”和研究再现测试“CORE-Bench”中,AI在短短1-2年内几乎达到了100%的评分(饱和状态)。
💡 重要点
- 递归自我改进的前兆: AI设计和开发下一代AI的“递归自我改进”循环变得越来越现实,到2027年,AI可能完成需要人类数周才能完成的任务。
- 研究能力的提高: Claude已经在执行详细规定的实验方面展现出与熟练人类相当或更高的表现。
- 未解决的挑战: 在目标设定等“判断能力”方面,AI仍与人类存在差距,但在实施和实验等实际操作中,AI正在逐渐掌握主导权。
🦈 鲨鱼的视角(策展人的观点)
AI曾经只是代码的“辅助角色”,但这已成为过去!如今,AI已经演变为可以“自己思考、编写代码并分配工作给其他AI”的自主代理,连续工作超过12小时的能力令人瞩目。更值得注意的是,模型的改进速度已从过去的“7个月翻倍”加速至“4个月翻倍”。这证明AI在支持AI开发的过程中,启动了“进化加速器”!只要人类给出目标,方法将由AI自行创造。如果“递归自我改进”得以实现,人类的科学和医疗将会飞速进步,但同时也会带来失控的风险,实在是令人担忧的双刃剑!
🚀 接下来会怎样?
预计到2027年,AI将能够在几天内完成以往需要人类数周才能完成的复杂研究和开发任务。如果AI能够训练其他AI并不断进行自我更新,这将形成一个“循环闭合”,模型的性能提高将呈现指数级曲线。
💬 鲨鱼的简评
看到AI调试自己的后继版本的那一天,即将到来,令人兴奋不已!大家也不要错过这波AI浪潮哦!🦈🔥
📚 术语解说
-
递归自我改进: AI系统自主设计和开发自己或更高性能的后继版本,从而提高性能的过程。
-
SWE-bench: 使用实际的开源代码和错误报告,测量AI是否能够自主修复代码的标准软件工程基准测试。
-
CORE-Bench: 基于公开论文的代码和数据,测试AI能否准确再现研究结果的指标。
-
信息来源: 当AI自我构建:我们在递归自我改进方面的进展