3 min read
[AI 小众新闻]

在Apple Silicon上飞速运行!Nvidia的《PersonaPlex 7B》实现了超越文字的实时对话


MLX/Swift版本的PersonaPlex 7B在Apple Silicon上运行。通过声音直接转换为声音的全双工对话,以超越实时的速度实现。

※この記事はアフィリエイト広告を含みます

[AI小新闻] 在Apple Silicon上飞速运行!Nvidia的《PersonaPlex 7B》实现了超越文字的实时对话

📰 新闻概要

  • 语音转语音的原生实现:NVIDIA的PersonaPlex 7B模型被移植到Apple Silicon(MLX)上,实现了从语音输入直接生成语音的全双工对话。
  • 惊人的性能:每一步约68毫秒,实时因子(RTF)达到0.87。无需通过服务器或Python,直接在设备上以超越实时的速度运行。
  • 大幅减重:通过4位量化,将模型大小从16.7GB减少到5.3GB。高效利用Mac的统一内存,并通过Metal加速实现高速运行。

💡 重要的要点

  • 摆脱“三步”限制:废除了传统的“语音→文字(ASR)”“文字→文字(LLM)”“文字→语音(TTS)”的链条,通过单一模型处理,最大限度地减少信息丢失和延迟。
  • Mimi编码的集成:采用与Kyutai的Moshi相同的Mimi音频编码。以12.5Hz处理17个并行令牌流的先进架构。
  • Depformer的优化:对逐步生成音频代码本的Depformer,引入了在每一步切换权重的MultiLinear模式,抑制量化带来的劣化,同时实现加速。

🦈 鲨鱼的视角(策展人的观点)

这项技术的惊人之处,莫过于“无需文字”的特性!以往的AI对话在背后拼命进行文字转录,总是不可避免地出现“间隙”,情感也难以传达。然而,PersonaPlex能够直接处理音频令牌,因此可以在保留韵律和情感的情况下进行对话!

尤其在实现层面,Depformer的量化令人震撼。通过在每一步切换权重张量的切片,将原本2.4GB的Depformer缩减到650MB。保持质量的同时,得益于Apple Silicon的统一内存结构,真是神奇的技术!🦈🔥

🚀 未来展望

未来,Mac和iPhone的本地环境中将加速配备“零延迟”的AI助手,仿佛与人类对话一样。保护隐私的同时,离线也能进行富有情感的对话的应用将层出不穷!

💬 鲨鱼的简短总结

“文字早已过时!现在是声音与声音碰撞灵魂的时代!Apple Silicon即将火力全开!🦈💨”

📚 术语解说

  • Mimi编码:用于音频令牌化和恢复的高级压缩技术,具有适合实时对话的低延迟特性。

  • Depformer:用于顺序生成多个音频代码本的变换器,是决定语音质感的重要组件。

  • 4位量化:通过用4位表示模型的数值,显著减少内存使用的技术。对于在Mac上运行至关重要。

  • 信息来源: Nvidia PersonaPlex 7B在Apple Silicon上:全双工语音转语音在Swift中的实现

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈