1976年的经典机器进行AI学习！？用汇编语言编写的Transformer『ATTN-11』引发热潮！

#Transformer #PDP-11 #汇编语言

※この記事はアフィリエイト広告を含みます

1976年的经典机器进行AI学习！？用汇编语言编写的Transformer『ATTN-11』引发热潮！

📰 新闻概览

在1970年代的硬件上运行: 1976年生产的迷你计算机「PDP-11」上，公开了一个1层1头的Transformer学习项目「ATTN-11」。
用汇编语言实现: 为了将处理速度和内存效率提升到极限，项目采用PDP-11的汇编语言进行全新开发。
学习数字反转任务: 输入的数字序列可以在约350个步骤（实际计算约1.5小时）内，学习到100%的准确率进行反转。

💡 重要要点

极小的参数量: 模型由嵌入层、自注意力（Self-Attention）、残差连接和输出投影构成，参数数量仅为1,216。
灵活运用定点运算: 针对没有浮点运算单元的环境，顺向传播使用Q8，反向传播使用Q15等不同精度的定点运算。
挑战内存限制: 为了适应当时珍贵的32KB核心内存，项目避免使用Adam优化方法，采用内存消耗较少的SGD。

🦈 鱼眼观察（策展人的视角）

与现代AI开发中对庞大GPU资源的随意使用截然相反，这种**「极限优化」**的努力令人震撼！特别有趣的是，他们对每一层的学习率进行了手动调整，把高学习率分配给注意力机制的权重，而低学习率则用于输出投影，这样就大幅缩短了学习时间，避免了内存占用高的Adam，真是超合理的做法！将Transformer塞入32KB的内存，简直是工匠精神的体现，让人感受到计算机的本源，令人兴奋！

🚀 未来展望

这个项目不仅重新展示了在极为有限的资源（如老旧的嵌入式系统）上，AI仍然可以运行和学习的可能性。
作为理解算法本质的教育资源，我认为它会在复古计算机爱好者和低层工程师中引起关注！

💬 鱼眼视角的一句话

在50年前的祖先游泳的时代，Transformer竟然能在这样的机器上运行，真让人热血沸腾！用汇编语言编写的AI，真是体现了“钢铁意志”的精神！🦈🔥

📚 术语解读

PDP-11: 1970年代由数字设备公司（DEC）推出的重要16位迷你计算机，计算机历史上留下了重要一笔。
定点运算: 将小数点固定在特定的比特位置进行整数计算的方法。用于不支持浮点运算的老旧CPU上进行快速计算。
SGD（随机梯度下降法）: 更新神经网络权重的基本方法，由于其内存消耗极少，非常适合像本项目这样的资源有限的环境。
信息来源: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer

1976年的经典机器进行AI学习！？用汇编语言编写的Transformer『ATTN-11』引发热潮！

1976年的经典机器进行AI学习！？用汇编语言编写的Transformer『ATTN-11』引发热潮！

📰 新闻概览

💡 重要要点

🦈 鱼眼观察（策展人的视角）

🚀 未来展望

💬 鱼眼视角的一句话

📚 术语解读

🦈 はるサメをフォローするだサメ！