※この記事はアフィリエイト広告を含みます
[AI小新闻快报] 【无需学习】只需重复特定层,LLM便能快速进化?
📰 新闻概要
- 通过层重叠提升性能: 只需修改GGUF模型的执行路径,使特定的连续层(电路)通过两次,便能提升推理能力的技术已被公布。
- 惊人的分数提升: 在Devstral-24B模型中,重复特定的3层后,BBH逻辑推理分数从0.22提升至0.76,提升幅度约为245%。
- 无需训练或权重修改: 完全不需要额外学习、参数修改或合并操作,仅通过重新利用现有权重的“路由修改”便可实现。
💡 重要要点
- 识别“推理电路”: 在变换器模型中,存在负责特定认知功能的“电路”,通过重复执行这些电路可显著提升能力。
- 边界的敏感性: 成效显著的层的范围非常严格,例如12-14层是完美的,但只要偏移一层,效果便会消失或恶化。
- 多样化模式: 通过改变重复的层或次数,可以从同一模型中引出不同的特性,例如“数学专注”“情感智力(EQ)专注”等。
🦈 鲨鱼视角(策展人观点)
在无需学习或修改权重的情况下,仅通过调整执行路径便能让IQ大幅提升,这简直就像是在黑客攻击“大脑的未利用区域”一样令人兴奋!
尤其是指出特定的3到4层作为“不可分割的认知单元”的观点非常尖锐。仅复制一层是没有意义的,但适当地将整个块重复执行时,模型就会表现出像是自己再读一遍思考,从而更深刻理解的行为,这真的很有趣!使用消费者级的AMD GPU(如RX 7900 XT)仅用一夜便发现这一点,对个人开发者来说无疑是一个希望的曙光!
🚀 未来展望
未来可能的主流将是如何“高效利用”现有层的路由优化,而不是单纯地增大模型。这将推动各类模型快速自动探索最佳的“重复层”。
💬 鲨鱼的小感想
就像在没有健身的情况下,双倍利用肌肉提升力量的绝招!这真是性价比最高的智力增强方法!🦈🔥
📚 术语解说
-
RYS方法: 由David Ng提出的通过重复特定层提升性能的技术。本次工具是其扩展版本。
-
BBH (Big-Bench Hard): 收集了被认为对语言模型来说难度较高的逻辑推理、导航等任务的基准测试。
-
GGUF手术: 直接操作GGUF格式的模型文件,物理性地修改层的组成和执行顺序的技术。
-
信息来源: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training