3 min read
[AI 小众新闻]

1976年的经典机器进行AI学习!?用汇编语言编写的Transformer『ATTN-11』引发热潮!


"- **在1970年代的硬件上运行**: 1976年生产的迷你计算机「PDP-11」上,公开了一个1层1头的Transformer学习项目「ATTN-11」。..."

※この記事はアフィリエイト広告を含みます

1976年的经典机器进行AI学习!?用汇编语言编写的Transformer『ATTN-11』引发热潮!

📰 新闻概览

  • 在1970年代的硬件上运行: 1976年生产的迷你计算机「PDP-11」上,公开了一个1层1头的Transformer学习项目「ATTN-11」。
  • 用汇编语言实现: 为了将处理速度和内存效率提升到极限,项目采用PDP-11的汇编语言进行全新开发。
  • 学习数字反转任务: 输入的数字序列可以在约350个步骤(实际计算约1.5小时)内,学习到100%的准确率进行反转。

💡 重要要点

  • 极小的参数量: 模型由嵌入层、自注意力(Self-Attention)、残差连接和输出投影构成,参数数量仅为1,216。
  • 灵活运用定点运算: 针对没有浮点运算单元的环境,顺向传播使用Q8,反向传播使用Q15等不同精度的定点运算。
  • 挑战内存限制: 为了适应当时珍贵的32KB核心内存,项目避免使用Adam优化方法,采用内存消耗较少的SGD。

🦈 鱼眼观察(策展人的视角)

与现代AI开发中对庞大GPU资源的随意使用截然相反,这种**「极限优化」**的努力令人震撼!特别有趣的是,他们对每一层的学习率进行了手动调整,把高学习率分配给注意力机制的权重,而低学习率则用于输出投影,这样就大幅缩短了学习时间,避免了内存占用高的Adam,真是超合理的做法!将Transformer塞入32KB的内存,简直是工匠精神的体现,让人感受到计算机的本源,令人兴奋!

🚀 未来展望

  • 这个项目不仅重新展示了在极为有限的资源(如老旧的嵌入式系统)上,AI仍然可以运行和学习的可能性。
  • 作为理解算法本质的教育资源,我认为它会在复古计算机爱好者和低层工程师中引起关注!

💬 鱼眼视角的一句话

在50年前的祖先游泳的时代,Transformer竟然能在这样的机器上运行,真让人热血沸腾!用汇编语言编写的AI,真是体现了“钢铁意志”的精神!🦈🔥

📚 术语解读

  • PDP-11: 1970年代由数字设备公司(DEC)推出的重要16位迷你计算机,计算机历史上留下了重要一笔。

  • 定点运算: 将小数点固定在特定的比特位置进行整数计算的方法。用于不支持浮点运算的老旧CPU上进行快速计算。

  • SGD(随机梯度下降法): 更新神经网络权重的基本方法,由于其内存消耗极少,非常适合像本项目这样的资源有限的环境。

  • 信息来源: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈