LLM直接'打印'在芯片上！？Taalas的超强ASIC每秒可处理1.7万Token，真是惊人！

#Taalas #Llama3 #ASIC #半导体

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] LLM直接“打印”在芯片上！？Taalas的超强ASIC每秒可处理1.7万Token，真是惊人！

📰 新闻概要

初创公司“Taalas”发布了一款专用ASIC芯片，将Llama 3.1 8B模型直接实现为硬件电路。
该芯片每秒可处理17,000个Token的推理速度，声称在电力效率和成本效益上比传统GPU系统高出10倍。
采用将模型权重直接刻录到硅片上的“硬连线”技术，而不是从VRAM中读取。

💡 重要的要点

打破内存瓶颈: 通过将权重数据嵌入电路本身，完全避免了GPU从VRAM获取数据时的瓶颈（冯·诺依曼瓶颈）。
魔法乘法器: 开发了一种独特的方案，使单个晶体管能够进行4位数据的乘法运算，成功实现了电路的超高密度化。
快速开发周期: 准备一个通用逻辑门网格，只需定制上层的掩膜层，即可在短短两个月内为新模型设计芯片。

🦈 鲨鱼的视角（策展人的观点）

将模型视为“固定的硬件”而非“可重写的软件”的想法真是锋芒毕露！就像任天堂的游戏卡带或CD-ROM一样，虽然只能运行特定模型，但却能以惊人的速度处理数据，这种取舍实在令人惊叹。Taalas的芯片使得电信号在电路中瞬间穿行，完成推理，而GPU则还在为数据在VRAM和计算核心之间的往返而苦苦挣扎。这种“用物理打破常规”的方法，正是当前AI基础设施所需要的破坏性创新！🦈🔥

🚀 接下来会怎样？

随着特定大型模型的标准化，像这样的专用ASIC可能会成为超低成本、超高速推理服务器的主流，逐渐取代通用GPU的推理方式。如果在本地设备上推广，我们在手机或电脑上实现零延迟运行ChatGPT级别的模型的未来也将不再遥远！

💬 鲨鱼的评论

将软件烧录到硬件上，这简直是“终极优化”！每秒生成30页A4纸的文本，已经到了连鲨鱼都看不完的级别了！🦈💨

📚 术语解说

ASIC: 为特定用途设计和制造的专用集成电路。与通用的CPU或GPU不同，ASIC只能执行特定任务，但因此速度极快且节能。
内存访问瓶颈 (Memory Wall): 计算速度与数据读写速度不匹配，导致系统整体性能受限的现象。这是现代AI开发中的最大挑战之一。
SRAM: 芯片内部配置的超高速内存。Taalas的芯片使用SRAM来存储会话上下文的KV缓存等数据。
信息来源: How Taalas “prints” LLM onto a chip?