色酷电影

步非烟足交语音界Deepseek！百度最新跨模态端到端语音交互，本钱最高降90%

发布日期：2025-07-06 11:39 点击次数：188

没思到步非烟足交，文小言接入推理模子的大更新背后，百度还藏了一手"质变"级工夫大招？？？

Talk is cheap，径直来看 Demo：

士别三日，文小言不仅能讲重庆话了，照旧成了哄娃的一把好手，被形状打断照样唠叨唠叨：

实测下来，Demo 不虚。这个全新语音对话功能，确乎更有东说念主味儿了，照旧能紧贴当下实事的那种——

只是让 Ta 推选周末迁延去向，Ta 我方就能主动采集刻下 4、5 月份的实验时刻，给出愈加合理的建议。

划重心，这是免费的。目下你也相通不错翻开手机里的文小言，径直体验这一全新升级的及时语音对话功能。

但！是！

淌若单说语音体验，那还真不是这个"大招"的重心。要道是，这回百度还败露了更多工夫细节。

我们仔细一看，还果真有真理了。

领先，上来等于一个行业草创：以上及时语音对话后果，由百度全新推出的端到端语音话语大模子结束，这是行业首个基于 Cross-Attention 的跨模态语音话语大模子。

有何不同？站在用户体验的角度来说，等于语音合成蔓延更低，对话更真实多情谊。

而更垂危的少量是，这样个新模上线，文小言在语音书答场景中的调用本钱，最高能缩短 90%！径直打掉了工业级落地的门槛。

（再也不怕模子厂流量大到挂我职业 .jpg）

我们提神到，百度语音首席架构师贾磊，其实用到了"质变"这个词：

百度端到端语音话语大模子是有质变的，不是单纯把文本大模子用到语音边界。

语音场景有其专有之处。此前，寰球莫得充分挖掘这个应用场景的不同，照旧按照把文本大模子用到语音场景的阶梯，把速率加速一下，工程优化一下。

我们的更正架构，让大模子在语音场景中的应用结束了极低本钱，更故意于大模子普及。

等于说，这一次语音工夫的更新，不单是是工程上的技能，百度正在通过工夫更正，买通大模子落地语音场景的工业级应用新范式。

行业首个基于 Cross-Attention 的端到端语音话语模子

话说到这了，我们就来沿路仔细扒一扒背后工夫有蓄意，望望究竟是奈何一趟事。

先给寰球划个重心：

老到大模子的小伙伴都知说念，KV cache 好像加速自转头推理，但其在存储和走访上的支出，也会跟着序列长度和模子范围增大而爆炸式增长。

因此在保证模子性能的前提下，缩短 KV cache，关于大模子应用来说，是提高推理着力、缩短本钱的一爽直道。

百度这次推出的基于 Cross-Attention 的端到端语音话语模子，重心就在于此。

具体来说，百度作念了以下更正：

业内草创的基于 Cross-Attention 的跨模态语音话语大模子

Encoder 和语音识别经过交融，缩短 KV 诡计

Decoder 和语音合成模子交融

更正提倡基于 Cross-Attention 的高效全查询提神力工夫（EALLQA），缩短 KV cache

我们一项一项伸开来看。

基于 Cross-Attention 的跨模态语音话语大模子

全体上，这个端到端语音话语大模子是基于 Self-Attention 的文心预试验大模子，接管自蒸馏的方式进行后试验得到。试验数据为文本和语音合成数据的搀杂。通盘这个词模子接管 MoE 结构。

要道点在于，在端到端语音识别中，声学模子亦然话语模子，因此在整合语音识别和空话语模子的经过中，好像通过将空话语模子中的 Encoder 和语音识别的经过交融分享，达到缩短语音交互硬蔓延的指标。

而在语音边界，Cross-Attention 自然具有跨模态上风：Decoder 会显式地将 Encoder 输出纳入提神力诡计，使得 Decoder 在每一个解码形势都能动态走访最磋商的输入向量，从而充分地对都和诈欺跨模态信息。

基于 Cross-Attention 的高效全查询提神力工夫（EALLQA）

不外，Cross-Attention 的引入带来了另一个问题：MLA 的位置编码工夫，在 Cross-Attention 中容易出现不褂讪的表象。

为此，百度语音团队提倡了高效全查询提神力工夫（EALLQA）：

接管更正的隐式 RNN 两级位置编码，试验时是在 128 空间上的 MHA，推理时是在模子各层分享的 512 空间上的 MQA（AllQA）。既充分诈欺了有限的试验资源，也极地面缩短了推理本钱。

从具体后果上来说，EALLQA 工夫能使 KV cache 降至原来的几十分之一，并将 Cross-Attention 的最近上一个问题的 KV 诡计降至原来的十分之一，极大缩短了语音交互时用户的恭候时刻和模子推理本钱。

缩短本钱的另一个要道，则是 Encoder 和语音识别系统的交融：对 Query 清爽的模子较小，能极大减少 KV 诡计。

流式逐字的 LLM 驱动的厚情谊语音合成

试验、推理本钱的缩短以外，端到端语音话语大模子还通过语音模子和话语模子的交融，结束了文学妥贴、情谊契合、当然流通的合成音频的生成。

一方面，研发团队通过大范围文本 - 语音数据自监督预试验，构建语义 + 韵律的疏忽化特征空间，通过双层 GPT-like Transformer，结束了韵律、音色双 Prompt 截至机制。

另一方面，在此基础之上，研发团队推出了语音话语大模子与合成一体化流式逐字合成。

有别于传统语音合成的整句输出，流式逐字相称于一个字一个字地合成。在这个经过中，话语大模子好像指导语音模子去生成情谊、停顿，识别多音字等等，结束更为拟东说念主、当然的语音合成后果。

需要提神的是，东说念主耳接管信息本色上是一个字一个字地接管，但关于 AI 而言，淌若 1 个 token 接 1 个 token 的输出，就需要处分并发的问题，以使 MoE 架构最猛进程发扬作用。

流式逐字合成要处分的中枢问题，等于在适配东说念主听力的基础上，结束高并发。

通过引入流式逐字合成，百度端到端语音话语大模子灵验提高了语音交互的反应速率，同期缩短了语音交互边界使用大模子本钱。与大模子交融的 TTS 文学作风姿色截至，还不错字据文本输出自适配的情况，情谊遮掩达到 17 种。

肤浅总结一下，百度的端到端语音话语大模子，一方面是重心处分了大模子应用于语音交互场景本钱高、速率慢的问题。

另一方面，空话语模子带来的语义清爽等智商，也处分了传统语音交互中，同音字识别、打断、真实情谊等痛点。

贾磊败露，目下，通盘这个词端到端语音话语大模子在 L20 卡上即可部署，在振奋语音交互硬蔓延条目的情况下，双 L20 卡并发不错作念到数百以上。

极低本钱是要道

说了这样多，最主要的要道词其实等于：低本钱。

在与贾磊的进一步换取中，他向我们强调了缩短本钱的垂危性：

欧美性

极低本钱就意味着大范围工业化变得荒谬容易。

2025 年，大模子的中枢并不在于展示什么新功能，而是能以多快速率真实应用到民生国计中去。

在不辩论诡计资源的情况下，及时语音交互有其他旅途不错结束，但"我们今天是第一个作念到跨模态端到端极低本钱处分语音书题的"。

贾磊还示意，但愿语音边界的这一冲破更正能被行业更多地情切到。

我们思要把中枢工夫分享出去，告诉寰球我们是奈何作念的，以此推动通盘这个词边界的爆发。

事实上，不仅是百度，在包含语音的大模子智商对外输出上，国表里厂商都将价钱视作冲破口。

OpenAI 就有意从性价比启程，推出了 GPT-4o mini audio，但愿以更便宜的价钱打入语音应用阛阓。

2025 年，基础模子方面，模子厂商在推理模子上争相竞逐，而其带来的最径直的影响之一，是东说念主们关于大模子应用加速爆发预期的执续升温。在这个经过中，我们不错看到，站在模子厂商的角度，更多的模子在被开源，更多的职业在免费洞开，用户默契、情切的争夺之中，本钱自身正在变得愈加敏锐。

更毋庸提本钱即是大范围应用的要道：不仅是在模子厂商们的 APP 上，还要进一步走进手机、汽车……

正如 DeepSeek 在基础模子边界搅拌池水，目下，百度也在语音边界迈出要道一步。

本钱，正在成为刻下阶段模子厂商得到主动权的垂危冲破口。

One More Thing

从文小言的语音交互架构图中还不错看到，它像是个语音版百度搜索。

正如著述开篇我们体验到的，文小言能采集刻下的季节对用户问题给出更合理的回应。本色上，在语音功能中，文小言依然撑执多垂类助手智商，包括天气、日期查询、单元换算、股价股票等信息查询内容，预计 38 个垂类。

还撑执 DeepQA RAG 问答，包含百度查询等时效性问答内容，能采集检索收尾，作念到更精确的领导跟从；撑执 DeepQA 非 RAG 问答，包含学问问答等非时效性问答内容。

"有问题，问小言"的这个"问"字，确乎是越来越接近东说念主类蓝本的交互民风了。

这本色亦然产业趋势的一种映射——

之前都是大模子工夫探索，需要抑遏适配智力落地家具、变成应用，临了被用户感知。

目下这是大模子工夫和家具应用，简直在同期对都，工夫激动的时候就对准了应用场景，应用场景也能催生更适合的工夫，不是锤子找钉子，而是锤子钉子同期对都。

大模子依然是 AI 寰球的中枢，但寰宇却正在变成应用为王的寰宇。

百度，或者说中国 AI 玩家，运行找到我方的节拍了。

一键三连「点赞」「转发」「阻拦心」

接待在评述区留住你的思法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见步非烟足交

热点资讯

	自慰自拍双东说念主作为生成新SOTA！浙大暴虐TIMotion框架…
	萝莉 telegram 比南边更南边，这里大虫子太多了…
	李蓉蓉麻豆大模子RL不啻数学代码！7B奖励模子贬责医学法律经济全学科…
	修艳弘拳交第二批AIGC峰会嘉宾已就位！速戳报名，和大佬们沿途来AI…
	色情动漫就现时！快，坐窝，随即！外出去踏青！…

步非烟 足交 语音界Deepseek！百度最新跨模态端到端语音交互，本钱最高降90%

步非烟足交语音界Deepseek！百度最新跨模态端到端语音交互，本钱最高降90%