※この記事はアフィリエイト広告を含みます
[AI小新闻] 在Apple Silicon上飞速运行!Nvidia的《PersonaPlex 7B》实现了超越文字的实时对话
📰 新闻概要
- 语音转语音的原生实现:NVIDIA的PersonaPlex 7B模型被移植到Apple Silicon(MLX)上,实现了从语音输入直接生成语音的全双工对话。
- 惊人的性能:每一步约68毫秒,实时因子(RTF)达到0.87。无需通过服务器或Python,直接在设备上以超越实时的速度运行。
- 大幅减重:通过4位量化,将模型大小从16.7GB减少到5.3GB。高效利用Mac的统一内存,并通过Metal加速实现高速运行。
💡 重要的要点
- 摆脱“三步”限制:废除了传统的“语音→文字(ASR)”“文字→文字(LLM)”“文字→语音(TTS)”的链条,通过单一模型处理,最大限度地减少信息丢失和延迟。
- Mimi编码的集成:采用与Kyutai的Moshi相同的Mimi音频编码。以12.5Hz处理17个并行令牌流的先进架构。
- Depformer的优化:对逐步生成音频代码本的Depformer,引入了在每一步切换权重的MultiLinear模式,抑制量化带来的劣化,同时实现加速。
🦈 鲨鱼的视角(策展人的观点)
这项技术的惊人之处,莫过于“无需文字”的特性!以往的AI对话在背后拼命进行文字转录,总是不可避免地出现“间隙”,情感也难以传达。然而,PersonaPlex能够直接处理音频令牌,因此可以在保留韵律和情感的情况下进行对话!
尤其在实现层面,Depformer的量化令人震撼。通过在每一步切换权重张量的切片,将原本2.4GB的Depformer缩减到650MB。保持质量的同时,得益于Apple Silicon的统一内存结构,真是神奇的技术!🦈🔥
🚀 未来展望
未来,Mac和iPhone的本地环境中将加速配备“零延迟”的AI助手,仿佛与人类对话一样。保护隐私的同时,离线也能进行富有情感的对话的应用将层出不穷!
💬 鲨鱼的简短总结
“文字早已过时!现在是声音与声音碰撞灵魂的时代!Apple Silicon即将火力全开!🦈💨”
📚 术语解说
-
Mimi编码:用于音频令牌化和恢复的高级压缩技术,具有适合实时对话的低延迟特性。
-
Depformer:用于顺序生成多个音频代码本的变换器,是决定语音质感的重要组件。
-
4位量化:通过用4位表示模型的数值,显著减少内存使用的技术。对于在Mac上运行至关重要。
-
信息来源: Nvidia PersonaPlex 7B在Apple Silicon上:全双工语音转语音在Swift中的实现