在Apple Silicon上飞速运行！Nvidia的《PersonaPlex 7B》实现了超越文字的实时对话

※この記事はアフィリエイト広告を含みます

[AI小新闻] 在Apple Silicon上飞速运行！Nvidia的《PersonaPlex 7B》实现了超越文字的实时对话

语音转语音的原生实现：NVIDIA的PersonaPlex 7B模型被移植到Apple Silicon（MLX）上，实现了从语音输入直接生成语音的全双工对话。
惊人的性能：每一步约68毫秒，实时因子（RTF）达到0.87。无需通过服务器或Python，直接在设备上以超越实时的速度运行。
大幅减重：通过4位量化，将模型大小从16.7GB减少到5.3GB。高效利用Mac的统一内存，并通过Metal加速实现高速运行。

摆脱“三步”限制：废除了传统的“语音→文字（ASR）”“文字→文字（LLM）”“文字→语音（TTS）”的链条，通过单一模型处理，最大限度地减少信息丢失和延迟。
Mimi编码的集成：采用与Kyutai的Moshi相同的Mimi音频编码。以12.5Hz处理17个并行令牌流的先进架构。
Depformer的优化：对逐步生成音频代码本的Depformer，引入了在每一步切换权重的MultiLinear模式，抑制量化带来的劣化，同时实现加速。

这项技术的惊人之处，莫过于“无需文字”的特性！以往的AI对话在背后拼命进行文字转录，总是不可避免地出现“间隙”，情感也难以传达。然而，PersonaPlex能够直接处理音频令牌，因此可以在保留韵律和情感的情况下进行对话！

尤其在实现层面，Depformer的量化令人震撼。通过在每一步切换权重张量的切片，将原本2.4GB的Depformer缩减到650MB。保持质量的同时，得益于Apple Silicon的统一内存结构，真是神奇的技术！🦈🔥

未来，Mac和iPhone的本地环境中将加速配备“零延迟”的AI助手，仿佛与人类对话一样。保护隐私的同时，离线也能进行富有情感的对话的应用将层出不穷！

“文字早已过时！现在是声音与声音碰撞灵魂的时代！Apple Silicon即将火力全开！🦈💨”