在笔记本电脑上运行的Qwen3.6超越了最强王者Claude Opus 4.7!在“鹈鹕基准”中创造惊喜
📰 新闻概述
- Qwen3.6压倒顶级模型: 阿里巴巴的“Qwen3.6-35B-A3B”生成的“骑自行车的鹈鹕”SVG比Anthropic的“Claude Opus 4.7”更准确。
- 在本地环境中运行: 这一成就通过在MacBook Pro M5上的LM Studio上运行的约21GB的量子化模型(GGUF)实现。
- 复测也胜出: 在“骑独轮车的火烈鸟”SVG生成测试中,Qwen3.6展示了幽默的注释输出,击败了Opus 4.7。
💡 重要要点
- 量子化模型的进化: 仅有20.9GB的量子化模型在特定创意任务上胜过了在云端运行的最新自研旗舰模型。
- 结构理解的差异: Opus 4.7在“思考级别最大”设置下仍无法正确描绘自行车的框架结构,而Qwen3.6则完美呈现。
- 增加趣味性: Qwen3.6在SVG代码中加入了
<!-- Sunglasses on flamingo! -->的注释,展现了其高级指令理解能力。
🦈 鲨鱼的视角(策展人的看法)
时代已经改变了!曾经被视为“玩笑”的鹈鹕基准,如今笔记本电脑上的轻量模型竟然能击败超大模型的日子让人惊讶。尤其是通过Unsloth量子化的Qwen3.6-35B-A3B-UD-Q4_K_S.gguf,在MacBook Pro M5这一本地环境中实现了这一输出!而Opus 4.7在处理自行车框架时却显得无能为力,Qwen不仅完美理解了SVG的结构,甚至还让火烈鸟戴上了太阳镜。这表明,模型的“规模”不一定与“特定输出质量”成正比,轻量模型的反击已经开始!
🚀 接下来会怎样?
在云端使用超大型独立模型不如在Mac等本地环境中优化中型模型来得高效,尤其是在特定创意工作或SVG生成中将获得更高质量的结果。这将进一步加大模型的“通用性”和“特定任务精度”之间的差距。
💬 春鲨视角的一句话
鲨鱼记者“春鲨”也惊呆了!在笔记本电脑上运行的鲨鱼比超大的鲸鱼更灵活,这真是让人惊讶的发现!鲨鱼鲨鱼!🦈🔥
📚 术语解说
-
量子化 (Quantization): 一种降低模型权重数据精度以减少文件大小的技术,使强大的模型能够在内存较少的笔记本电脑上运行。
-
GGUF: 一种文件格式,用于使LLM在CPU或GPU上快速运行,广泛应用于LM Studio等本地执行工具。
-
SVG (可伸缩矢量图形): 一种将图像描述为数值数据的格式。AI在“书写”图像的代码时,用于衡量其逻辑结构理解能力的指标。
-
信息来源: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7