3 min read
[AI 小众新闻]

【无需学习】只需重复特定层,LLM便能快速进化?「llm-circuit-finder」令人震惊!


只需重复特定层(电路)并将其整合到执行路径中,便能在不增加学习的情况下,显著提升LLM的逻辑推理能力的技术与工具问世。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 【无需学习】只需重复特定层,LLM便能快速进化?

📰 新闻概要

  • 通过层重叠提升性能: 只需修改GGUF模型的执行路径,使特定的连续层(电路)通过两次,便能提升推理能力的技术已被公布。
  • 惊人的分数提升: 在Devstral-24B模型中,重复特定的3层后,BBH逻辑推理分数从0.22提升至0.76,提升幅度约为245%。
  • 无需训练或权重修改: 完全不需要额外学习、参数修改或合并操作,仅通过重新利用现有权重的“路由修改”便可实现。

💡 重要要点

  • 识别“推理电路”: 在变换器模型中,存在负责特定认知功能的“电路”,通过重复执行这些电路可显著提升能力。
  • 边界的敏感性: 成效显著的层的范围非常严格,例如12-14层是完美的,但只要偏移一层,效果便会消失或恶化。
  • 多样化模式: 通过改变重复的层或次数,可以从同一模型中引出不同的特性,例如“数学专注”“情感智力(EQ)专注”等。

🦈 鲨鱼视角(策展人观点)

在无需学习或修改权重的情况下,仅通过调整执行路径便能让IQ大幅提升,这简直就像是在黑客攻击“大脑的未利用区域”一样令人兴奋!

尤其是指出特定的3到4层作为“不可分割的认知单元”的观点非常尖锐。仅复制一层是没有意义的,但适当地将整个块重复执行时,模型就会表现出像是自己再读一遍思考,从而更深刻理解的行为,这真的很有趣!使用消费者级的AMD GPU(如RX 7900 XT)仅用一夜便发现这一点,对个人开发者来说无疑是一个希望的曙光!

🚀 未来展望

未来可能的主流将是如何“高效利用”现有层的路由优化,而不是单纯地增大模型。这将推动各类模型快速自动探索最佳的“重复层”。

💬 鲨鱼的小感想

就像在没有健身的情况下,双倍利用肌肉提升力量的绝招!这真是性价比最高的智力增强方法!🦈🔥

📚 术语解说

  • RYS方法: 由David Ng提出的通过重复特定层提升性能的技术。本次工具是其扩展版本。

  • BBH (Big-Bench Hard): 收集了被认为对语言模型来说难度较高的逻辑推理、导航等任务的基准测试。

  • GGUF手术: 直接操作GGUF格式的模型文件,物理性地修改层的组成和执行顺序的技术。

  • 信息来源: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈