Claude Opus 4.7的震撼！新分词器令消耗的token增加最多47%

#Claude #Anthropic #分词器

※この記事はアフィリエイト広告を含みます

Claude Opus 4.7的震撼！新分词器令消耗的token增加最多47%

📰 新闻概述

token消耗量的增加: Claude Opus 4.7的新分词器与前一版本（4.6）相比，token消耗量增加了1.0~1.35倍，技术文档中甚至达到1.47倍。
语言和形式的差异: 英语的技术文档（1.47倍）和代码（1.21~1.39倍）消耗量激增，而日语和中文等CJK语言几乎没有影响，仅为1.01倍。
精度的提升: 据说Anthropic旨在通过细分token来提高“对指令的忠实遵循（Instruction Following）”和工具调用的精度。

💡 重要要点

实际成本增加: 在相同的价格和配额（使用限制）下，由于每次请求消耗的token增加，导致上下文窗口耗尽和达到速率限制的速度加快。
对技术文档和代码的直接影响: 代码内的关键词和导入语等高频字符串被更细致地分割，这被认为是消耗增加的原因。
基准测试结果: 使用IFEval进行的测试显示，4.6的成功率为85%，而4.7提升至90%。这意味着以成本增加为代价换来了精度的提升。

🦈 鲨鱼的视角（策展人的观察）

Anthropic故意舍弃“效率”而追求“精度”，真是个大胆的选择啊！值得注意的是，尽管英语和代码的token消耗激增，但日语（CJK）几乎没有变化（1.01倍）。这表明它们在保持现有非拉丁字符部分结构的同时，调整了对英语和代码模式的识别方式，使其更“细碎”。通过细分token，模型能够更加关注单词和符号的细节。实际上，在IFEval测试中，“包含特定单词两次”和“全部大写回答”等约束的遵守率提高，这证明了这一策略的有效性！对于开发者来说，API成本实际上将增加20%至30%，因此有效利用缓存和优化提示变得更加重要！

🚀 接下来会怎样？

开发者在迁移到Claude Opus 4.7时，可能会面临预算压力，因此需要重新评估成本效益。另一方面，在对精度要求较高的代理开发和代码生成任务中，这种“高成本、高精度”的新分词器可能会成为行业的新标准。

💬 鲨鱼的简短点评

为了精度不惜消耗token，简直是“暴食”的进化啊！不过对于日语用户来说，这种设计还是很人性化的，真让人放心！

📚 术语解释

分词器: 将文本分割为AI可以处理的最小单位（token）的机制。分割越细，处理的分辨率越高，但token数量也会增加。
IFEval: Google提出的一个基准测试，用于验证AI在多大程度上可以严格遵循指令（约束）。
字节对编码（BPE）: 一种将频繁出现的字符组合注册为一个token的算法。这次推测是这种“合并”的方式发生了变化。
信息来源: Claude Opus 4.7 costs 20–30% more per session

Claude Opus 4.7的震撼！新分词器令消耗的token增加最多47%

Claude Opus 4.7的震撼！新分词器令消耗的token增加最多47%

📰 新闻概述

💡 重要要点

🦈 鲨鱼的视角（策展人的观察）

🚀 接下来会怎样？

💬 鲨鱼的简短点评

📚 术语解释

🦈 はるサメをフォローするだサメ！