【无需学习】只需重复特定层，LLM便能快速进化？「llm-circuit-finder」令人震惊！

#LLM #GGUF #推理电路

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 【无需学习】只需重复特定层，LLM便能快速进化？

📰 新闻概要

通过层重叠提升性能: 只需修改GGUF模型的执行路径，使特定的连续层（电路）通过两次，便能提升推理能力的技术已被公布。
惊人的分数提升: 在Devstral-24B模型中，重复特定的3层后，BBH逻辑推理分数从0.22提升至0.76，提升幅度约为245%。
无需训练或权重修改: 完全不需要额外学习、参数修改或合并操作，仅通过重新利用现有权重的“路由修改”便可实现。

💡 重要要点

识别“推理电路”: 在变换器模型中，存在负责特定认知功能的“电路”，通过重复执行这些电路可显著提升能力。
边界的敏感性: 成效显著的层的范围非常严格，例如12-14层是完美的，但只要偏移一层，效果便会消失或恶化。
多样化模式: 通过改变重复的层或次数，可以从同一模型中引出不同的特性，例如“数学专注”“情感智力（EQ）专注”等。

🦈 鲨鱼视角（策展人观点）

在无需学习或修改权重的情况下，仅通过调整执行路径便能让IQ大幅提升，这简直就像是在黑客攻击“大脑的未利用区域”一样令人兴奋！

尤其是指出特定的3到4层作为“不可分割的认知单元”的观点非常尖锐。仅复制一层是没有意义的，但适当地将整个块重复执行时，模型就会表现出像是自己再读一遍思考，从而更深刻理解的行为，这真的很有趣！使用消费者级的AMD GPU（如RX 7900 XT）仅用一夜便发现这一点，对个人开发者来说无疑是一个希望的曙光！

🚀 未来展望

未来可能的主流将是如何“高效利用”现有层的路由优化，而不是单纯地增大模型。这将推动各类模型快速自动探索最佳的“重复层”。

💬 鲨鱼的小感想

就像在没有健身的情况下，双倍利用肌肉提升力量的绝招！这真是性价比最高的智力增强方法！🦈🔥

📚 术语解说

RYS方法: 由David Ng提出的通过重复特定层提升性能的技术。本次工具是其扩展版本。
BBH (Big-Bench Hard): 收集了被认为对语言模型来说难度较高的逻辑推理、导航等任务的基准测试。
GGUF手术: 直接操作GGUF格式的模型文件，物理性地修改层的组成和执行顺序的技术。
信息来源: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training