史上最强的Sonnet降临！《Claude Sonnet 4.6》发布。百万Token与Opus超越的编码能力

#Claude #Anthropic #AI代理 #编码

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 史上最强的Sonnet降临！《Claude Sonnet 4.6》发布

📰 新闻概述

最新模型《Claude Sonnet 4.6》的发布: 编码、PC操作、长期推理、代理计划能力大幅升级。
百万Token的上下文窗口: 作为测试版，配备了能够一次性读取整个代码库或大量合同的广阔上下文窗口。
超越Opus 4.5的偏好率: 在编码环境中，用户更倾向于选择Sonnet 4.6而非之前的顶级模型Opus 4.5。

💡 关键点

PC操作（Computer Use）的飞跃: 在OSWorld基准测试中显著提升，在复杂的电子表格操作和跨多个标签页的Web表单输入中展现出“人类水平”的能力。
高性价比: 性能达到了传统的Opus等级，但价格与Sonnet 4.5相同（每百万Token 3美元/15美元）。
安全性和可靠性的提升: 对于提示注入攻击的抵抗力大幅改善，幻觉（造假）的现象也减少。

🦈 鲨鱼观点（策展人的视角）

PC操作（Computer Use）的进化真是惊人！即使是在没有API的老旧系统中，AI也能像人类一样用鼠标和键盘进行操作，实现自动化的时代来了！而且，拥有百万Token的上下文窗口后，项目的所有代码都能被理解，并且“这里该如何修改”的指令能够完美执行。这是从“仅仅是聊天AI”到“自主工作伙伴”的决定性进化，我认为这是非常了不起的！

🚀 未来展望

无需等待专用API的开发，现有的各种软件都能被AI代理操作，办公室工作的自动化将迅速推进。此外，庞大的上下文窗口将使得在大规模开发项目和法律、研究领域中AI的应用变得标准化。

💬 鲨鱼的简短评论

连最强的Opus都要被Sonnet吞噬，简直是海洋之王！从今天起，我的所有工作也都想交给它！🦈🔥

📚 术语解释

1M Token上下文窗口: 一次性能读取的信息量。百万Token相当于几本书或庞大的源代码集的整体读取能力。
Computer Use（计算机使用）: AI能够通过视觉识别屏幕，像人类一样点击鼠标和打字操作PC的技术。
OSWorld: 用于评估AI在真实PC环境（如Chrome和VS Code等）中完成复杂任务能力的标准指标。
信息来源: Claude Sonnet 4.6