登顶新SOTA！阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro-c罗世界杯进球数-世界杯海报_u20世界杯德国

登顶新SOTA！阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro

2025-05-17 16:23:42

而在语音聊天模式中，用户可以与Qwen2-Audio进行交互，就像它是一个会话代理一样，进行不受限制的对话。

音频交互是可用的，用户可以随时选择切换到文本交互。例如，如果用户输入一个音频片段，其中初始部分是敲击键盘的声音，随后用户用口语问“这是什么声音？”，Qwen2-Audio预计将直接回应“这是键盘的声音。”

即使在较为嘈杂的环境，例如用户一边听歌，一边发出指令，让模型提取出歌词内容。Qwen2-Audio也能有较好的表现。

从论文中看，Qwen2-Audio在没有特定任务微调的情况下，超越了之前的大型音频-语言模型（LALMs），涵盖了多种任务。

02 Qwen2-Audio是如何炼成的？

与Qwen-Audio不同的是，Qwen2-Audio的音频编码器基于Whisperlarge-v3模型初始化，负责将音频信号转换为模型可以理解的表示。

Qwen2-Audio使用了Qwen-7B作为其基础组件，模型总参数量为82亿。

在训练素材上，Qwen2-Audio使用了多个数据集。

在对音频数据进行预处理的阶段，音频被重新采样到16 kHz的频率，使用25ms的窗口大小和10ms的跳跃大小将原始波形转换为128通道的mel-频谱图。

此外，还加入了一个步幅为2的池化层，以减少音频表示的长度。最终，编码器输出的每一帧近似对应于原始音频信号的40 ms段。

整个Qwen2-Audio分为三个阶段：

第一阶段：多任务预训练，使用自然语言提示和大规模数据集进行预训练。

第二阶段：监督微调，通过高质量的SFT数据集进行微调，提高模型对人类指令的理解和响应能力。

第三阶段：直接偏好优化，通过DPO进一步优化模型，使其输出更符合人类的偏好。

03 写在最后

Qwen2-Audio虽然很优秀，但遗憾在没有涉及语音输出。而无论是语音助手、情感陪伴还是更远的具身智能，都迫切需要点亮这棵技能树。

Sora的横空出世，已经肉眼可见地催熟了文生视频的模型技术。

下一个值得关注的模态，似乎正瞄准了GPT-4o，瞄准了语音交互。

根据专家预测，AI语音交互技术将在今年年底发展到基本成熟。

快手凭借可灵获得了一片叫好，那么，语音界令我们惊艳的国产模型，又将花落谁家？返回搜狐，查看更多

世界杯海报_u20世界杯德国 - jjswlx.com