3 min read
[AI 小众新闻]

LLM直接“打印”在芯片上!?Taalas的超强ASIC每秒可处理1.7万Token,真是惊人!


初创公司Taalas发布了直接将Llama 3.1 8B硬件化的专用ASIC,实现了10倍于GPU的性能和成本效益。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] LLM直接“打印”在芯片上!?Taalas的超强ASIC每秒可处理1.7万Token,真是惊人!

📰 新闻概要

  • 初创公司“Taalas”发布了一款专用ASIC芯片,将Llama 3.1 8B模型直接实现为硬件电路。
  • 该芯片每秒可处理17,000个Token的推理速度,声称在电力效率和成本效益上比传统GPU系统高出10倍。
  • 采用将模型权重直接刻录到硅片上的“硬连线”技术,而不是从VRAM中读取。

💡 重要的要点

  • 打破内存瓶颈: 通过将权重数据嵌入电路本身,完全避免了GPU从VRAM获取数据时的瓶颈(冯·诺依曼瓶颈)。
  • 魔法乘法器: 开发了一种独特的方案,使单个晶体管能够进行4位数据的乘法运算,成功实现了电路的超高密度化。
  • 快速开发周期: 准备一个通用逻辑门网格,只需定制上层的掩膜层,即可在短短两个月内为新模型设计芯片。

🦈 鲨鱼的视角(策展人的观点)

将模型视为“固定的硬件”而非“可重写的软件”的想法真是锋芒毕露!就像任天堂的游戏卡带或CD-ROM一样,虽然只能运行特定模型,但却能以惊人的速度处理数据,这种取舍实在令人惊叹。Taalas的芯片使得电信号在电路中瞬间穿行,完成推理,而GPU则还在为数据在VRAM和计算核心之间的往返而苦苦挣扎。这种“用物理打破常规”的方法,正是当前AI基础设施所需要的破坏性创新!🦈🔥

🚀 接下来会怎样?

随着特定大型模型的标准化,像这样的专用ASIC可能会成为超低成本、超高速推理服务器的主流,逐渐取代通用GPU的推理方式。如果在本地设备上推广,我们在手机或电脑上实现零延迟运行ChatGPT级别的模型的未来也将不再遥远!

💬 鲨鱼的评论

将软件烧录到硬件上,这简直是“终极优化”!每秒生成30页A4纸的文本,已经到了连鲨鱼都看不完的级别了!🦈💨

📚 术语解说

  • ASIC: 为特定用途设计和制造的专用集成电路。与通用的CPU或GPU不同,ASIC只能执行特定任务,但因此速度极快且节能。

  • 内存访问瓶颈 (Memory Wall): 计算速度与数据读写速度不匹配,导致系统整体性能受限的现象。这是现代AI开发中的最大挑战之一。

  • SRAM: 芯片内部配置的超高速内存。Taalas的芯片使用SRAM来存储会话上下文的KV缓存等数据。

  • 信息来源: How Taalas “prints” LLM onto a chip?

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈