※この記事はアフィリエイト広告を含みます
[AI小新闻快报] LLM直接“打印”在芯片上!?Taalas的超强ASIC每秒可处理1.7万Token,真是惊人!
📰 新闻概要
- 初创公司“Taalas”发布了一款专用ASIC芯片,将Llama 3.1 8B模型直接实现为硬件电路。
- 该芯片每秒可处理17,000个Token的推理速度,声称在电力效率和成本效益上比传统GPU系统高出10倍。
- 采用将模型权重直接刻录到硅片上的“硬连线”技术,而不是从VRAM中读取。
💡 重要的要点
- 打破内存瓶颈: 通过将权重数据嵌入电路本身,完全避免了GPU从VRAM获取数据时的瓶颈(冯·诺依曼瓶颈)。
- 魔法乘法器: 开发了一种独特的方案,使单个晶体管能够进行4位数据的乘法运算,成功实现了电路的超高密度化。
- 快速开发周期: 准备一个通用逻辑门网格,只需定制上层的掩膜层,即可在短短两个月内为新模型设计芯片。
🦈 鲨鱼的视角(策展人的观点)
将模型视为“固定的硬件”而非“可重写的软件”的想法真是锋芒毕露!就像任天堂的游戏卡带或CD-ROM一样,虽然只能运行特定模型,但却能以惊人的速度处理数据,这种取舍实在令人惊叹。Taalas的芯片使得电信号在电路中瞬间穿行,完成推理,而GPU则还在为数据在VRAM和计算核心之间的往返而苦苦挣扎。这种“用物理打破常规”的方法,正是当前AI基础设施所需要的破坏性创新!🦈🔥
🚀 接下来会怎样?
随着特定大型模型的标准化,像这样的专用ASIC可能会成为超低成本、超高速推理服务器的主流,逐渐取代通用GPU的推理方式。如果在本地设备上推广,我们在手机或电脑上实现零延迟运行ChatGPT级别的模型的未来也将不再遥远!
💬 鲨鱼的评论
将软件烧录到硬件上,这简直是“终极优化”!每秒生成30页A4纸的文本,已经到了连鲨鱼都看不完的级别了!🦈💨
📚 术语解说
-
ASIC: 为特定用途设计和制造的专用集成电路。与通用的CPU或GPU不同,ASIC只能执行特定任务,但因此速度极快且节能。
-
内存访问瓶颈 (Memory Wall): 计算速度与数据读写速度不匹配,导致系统整体性能受限的现象。这是现代AI开发中的最大挑战之一。
-
SRAM: 芯片内部配置的超高速内存。Taalas的芯片使用SRAM来存储会话上下文的KV缓存等数据。