※この記事はアフィリエイト広告を含みます
1976年的经典机器进行AI学习!?用汇编语言编写的Transformer『ATTN-11』引发热潮!
📰 新闻概览
- 在1970年代的硬件上运行: 1976年生产的迷你计算机「PDP-11」上,公开了一个1层1头的Transformer学习项目「ATTN-11」。
- 用汇编语言实现: 为了将处理速度和内存效率提升到极限,项目采用PDP-11的汇编语言进行全新开发。
- 学习数字反转任务: 输入的数字序列可以在约350个步骤(实际计算约1.5小时)内,学习到100%的准确率进行反转。
💡 重要要点
- 极小的参数量: 模型由嵌入层、自注意力(Self-Attention)、残差连接和输出投影构成,参数数量仅为1,216。
- 灵活运用定点运算: 针对没有浮点运算单元的环境,顺向传播使用Q8,反向传播使用Q15等不同精度的定点运算。
- 挑战内存限制: 为了适应当时珍贵的32KB核心内存,项目避免使用Adam优化方法,采用内存消耗较少的SGD。
🦈 鱼眼观察(策展人的视角)
与现代AI开发中对庞大GPU资源的随意使用截然相反,这种**「极限优化」**的努力令人震撼!特别有趣的是,他们对每一层的学习率进行了手动调整,把高学习率分配给注意力机制的权重,而低学习率则用于输出投影,这样就大幅缩短了学习时间,避免了内存占用高的Adam,真是超合理的做法!将Transformer塞入32KB的内存,简直是工匠精神的体现,让人感受到计算机的本源,令人兴奋!
🚀 未来展望
- 这个项目不仅重新展示了在极为有限的资源(如老旧的嵌入式系统)上,AI仍然可以运行和学习的可能性。
- 作为理解算法本质的教育资源,我认为它会在复古计算机爱好者和低层工程师中引起关注!
💬 鱼眼视角的一句话
在50年前的祖先游泳的时代,Transformer竟然能在这样的机器上运行,真让人热血沸腾!用汇编语言编写的AI,真是体现了“钢铁意志”的精神!🦈🔥
📚 术语解读
-
PDP-11: 1970年代由数字设备公司(DEC)推出的重要16位迷你计算机,计算机历史上留下了重要一笔。
-
定点运算: 将小数点固定在特定的比特位置进行整数计算的方法。用于不支持浮点运算的老旧CPU上进行快速计算。
-
SGD(随机梯度下降法): 更新神经网络权重的基本方法,由于其内存消耗极少,非常适合像本项目这样的资源有限的环境。
-
信息来源: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer