※この記事はアフィリエイト広告を含みます
[AI小道消息] AI的“作弊”被揭露!?最新模型在难解语言基准测试中正答率仅为3%!
📰 新闻概要
- 以Python的0.002%到0.00001%为基础的五种难解编程语言(如Brainfuck、Whitespace等)基准测试“EsoLang-Bench”问世。
- 即便是声称在Python中接近90%准确率的最前沿模型,在该基准测试中也仅记录了3.8%的平均正答率,实在是惨不忍睹。
- 在“中级”及以上难度下,所有模型的正答率均为0%,这暗示当前的LLM或许缺乏真正的编程推理能力。
💡 重要要点
- Whitespace的完全攻克失败: 仅由空白、制表符和换行符构成的Whitespace语言,所有模型和所有提示策略均未能取得任何正答率。
- 依赖记忆: 几Shot提示(示例)对Zero-shot并未显著改善,这表明现有基准测试的成功并非基于推理,而是“记忆”学习数据的结果。
- 代理系统的优势: 使用解释器反馈的代理型系统,准确率比单纯依赖提示的方法高出约两倍,但仍远远无法达到主流语言的水平。
🦈 鲨鱼的视角(策展人的观点)
当前AI被称为“聪明”的理由,竟然是基于庞大学习数据的“记忆”,这个结果实在令人震惊!特别是像Whitespace这样“不可见语法”全军覆没的情况,令人深思。AI虽然能够识别模式,但却无法从零开始构建背后的逻辑结构。大约80%的Brainfuck案例中,语法正确但逻辑错误,表明在适应“未知规则”的能力上,LLM仍然稚嫩不堪。这个基准测试将成为衡量AI“真正智能”的残酷而精彩的标准!
🚀 接下来会发生什么?
仅靠主流语言的性能提升,无法证明“真正的通用推理”。未来的发展重点,将是未学习的规则和极少数据环境下的适应能力,以及通过与解释器的对话提升自我修正能力。
💬 鲨鱼的简短感想
AI在“未见过的问题”面前脆弱,简直像考试前的学生!但正是跨越这些障碍,才能成为真正的伙伴。加油,AI,鲨鱼会一直支持你的!🦈🔥
📚 术语解读
-
难解编程语言 (Esoteric Languages): 故意设计得难以理解,或具讽刺意味的语言。它们更注重概念证明和解谜元素,而非实用性。
-
自我支撑: 将执行环境(解释器)中的错误输出反馈给LLM,使其自行修正代码的方法。
-
代理型编程系统: 不仅仅是生成文本,而是实际执行代码,并在结果基础上自主完成任务的AI系统。