色酷电影

步非烟 足交 语音界Deepseek!百度最新跨模态端到端语音交互,本钱最高降90%

         发布日期:2025-07-06 11:39    点击次数:188

步非烟 足交 语音界Deepseek!百度最新跨模态端到端语音交互,本钱最高降90%

没思到步非烟 足交,文小言接入推理模子的大更新背后,百度还藏了一手"质变"级工夫大招???

Talk is cheap,径直来看 Demo:

士别三日,文小言不仅能讲重庆话了,照旧成了哄娃的一把好手,被形状打断照样唠叨唠叨:

实测下来,Demo 不虚。这个全新语音对话功能,确乎更有东说念主味儿了,照旧能紧贴当下实事的那种——

只是让 Ta 推选周末迁延去向,Ta 我方就能主动采集刻下 4、5 月份的实验时刻,给出愈加合理的建议。

划重心,这是免费的。目下你也相通不错翻开手机里的文小言,径直体验这一全新升级的及时语音对话功能。

但!是!

淌若单说语音体验,那还真不是这个"大招"的重心。要道是,这回百度还败露了更多工夫细节。

我们仔细一看,还果真有真理了。

领先,上来等于一个行业草创:以上及时语音对话后果,由百度全新推出的端到端语音话语大模子结束,这是行业首个基于 Cross-Attention 的跨模态语音话语大模子。

有何不同?站在用户体验的角度来说,等于语音合成蔓延更低,对话更真实多情谊。

而更垂危的少量是,这样个新模上线,文小言在语音书答场景中的调用本钱,最高能缩短 90%!径直打掉了工业级落地的门槛。

(再也不怕模子厂流量大到挂我职业 .jpg)

我们提神到,百度语音首席架构师贾磊,其实用到了"质变"这个词:

百度端到端语音话语大模子是有质变的,不是单纯把文本大模子用到语音边界。

语音场景有其专有之处。此前,寰球莫得充分挖掘这个应用场景的不同,照旧按照把文本大模子用到语音场景的阶梯,把速率加速一下,工程优化一下。

我们的更正架构,让大模子在语音场景中的应用结束了极低本钱,更故意于大模子普及。

等于说,这一次语音工夫的更新,不单是是工程上的技能,百度正在通过工夫更正,买通大模子落地语音场景的工业级应用新范式。

行业首个基于 Cross-Attention 的端到端语音话语模子

话说到这了,我们就来沿路仔细扒一扒背后工夫有蓄意,望望究竟是奈何一趟事。

先给寰球划个重心:

老到大模子的小伙伴都知说念,KV cache 好像加速自转头推理,但其在存储和走访上的支出,也会跟着序列长度和模子范围增大而爆炸式增长。

因此在保证模子性能的前提下,缩短 KV cache,关于大模子应用来说,是提高推理着力、缩短本钱的一爽直道。

百度这次推出的基于 Cross-Attention 的端到端语音话语模子,重心就在于此。

具体来说,百度作念了以下更正:

业内草创的基于 Cross-Attention 的跨模态语音话语大模子

Encoder 和语音识别经过交融,缩短 KV 诡计

Decoder 和语音合成模子交融

更正提倡基于 Cross-Attention 的高效全查询提神力工夫(EALLQA),缩短 KV cache

我们一项一项伸开来看。

基于 Cross-Attention 的跨模态语音话语大模子

全体上,这个端到端语音话语大模子是基于 Self-Attention 的文心预试验大模子,接管自蒸馏的方式进行后试验得到。试验数据为文本和语音合成数据的搀杂。通盘这个词模子接管 MoE 结构。

要道点在于,在端到端语音识别中,声学模子亦然话语模子,因此在整合语音识别和空话语模子的经过中,好像通过将空话语模子中的 Encoder 和语音识别的经过交融分享,达到缩短语音交互硬蔓延的指标。

而在语音边界,Cross-Attention 自然具有跨模态上风:Decoder 会显式地将 Encoder 输出纳入提神力诡计,使得 Decoder 在每一个解码形势都能动态走访最磋商的输入向量,从而充分地对都和诈欺跨模态信息。

基于 Cross-Attention 的高效全查询提神力工夫(EALLQA)

不外,Cross-Attention 的引入带来了另一个问题:MLA 的位置编码工夫,在 Cross-Attention 中容易出现不褂讪的表象。

为此,百度语音团队提倡了高效全查询提神力工夫(EALLQA):

接管更正的隐式 RNN 两级位置编码,试验时是在 128 空间上的 MHA,推理时是在模子各层分享的 512 空间上的 MQA(AllQA)。既充分诈欺了有限的试验资源,也极地面缩短了推理本钱。

从具体后果上来说,EALLQA 工夫能使 KV cache 降至原来的几十分之一,并将 Cross-Attention 的最近上一个问题的 KV 诡计降至原来的十分之一,极大缩短了语音交互时用户的恭候时刻和模子推理本钱。

缩短本钱的另一个要道,则是 Encoder 和语音识别系统的交融:对 Query 清爽的模子较小,能极大减少 KV 诡计。

流式逐字的 LLM 驱动的厚情谊语音合成

试验、推理本钱的缩短以外,端到端语音话语大模子还通过语音模子和话语模子的交融,结束了文学妥贴、情谊契合、当然流通的合成音频的生成。

一方面,研发团队通过大范围文本 - 语音数据自监督预试验,构建语义 + 韵律的疏忽化特征空间,通过双层 GPT-like Transformer,结束了韵律、音色双 Prompt 截至机制。

另一方面,在此基础之上,研发团队推出了语音话语大模子与合成一体化流式逐字合成。

有别于传统语音合成的整句输出,流式逐字相称于一个字一个字地合成。在这个经过中,话语大模子好像指导语音模子去生成情谊、停顿,识别多音字等等,结束更为拟东说念主、当然的语音合成后果。

需要提神的是,东说念主耳接管信息本色上是一个字一个字地接管,但关于 AI 而言,淌若 1 个 token 接 1 个 token 的输出,就需要处分并发的问题,以使 MoE 架构最猛进程发扬作用。

流式逐字合成要处分的中枢问题,等于在适配东说念主听力的基础上,结束高并发。

通过引入流式逐字合成,百度端到端语音话语大模子灵验提高了语音交互的反应速率,同期缩短了语音交互边界使用大模子本钱。与大模子交融的 TTS 文学作风姿色截至,还不错字据文本输出自适配的情况,情谊遮掩达到 17 种。

肤浅总结一下,百度的端到端语音话语大模子,一方面是重心处分了大模子应用于语音交互场景本钱高、速率慢的问题。

另一方面,空话语模子带来的语义清爽等智商,也处分了传统语音交互中,同音字识别、打断、真实情谊等痛点。

贾磊败露,目下,通盘这个词端到端语音话语大模子在 L20 卡上即可部署,在振奋语音交互硬蔓延条目的情况下,双 L20 卡并发不错作念到数百以上。

极低本钱是要道

说了这样多,最主要的要道词其实等于:低本钱。

在与贾磊的进一步换取中,他向我们强调了缩短本钱的垂危性:

欧美性

极低本钱就意味着大范围工业化变得荒谬容易。

2025 年,大模子的中枢并不在于展示什么新功能,而是能以多快速率真实应用到民生国计中去。

在不辩论诡计资源的情况下,及时语音交互有其他旅途不错结束,但"我们今天是第一个作念到跨模态端到端极低本钱处分语音书题的"。

贾磊还示意,但愿语音边界的这一冲破更正能被行业更多地情切到。

我们思要把中枢工夫分享出去,告诉寰球我们是奈何作念的,以此推动通盘这个词边界的爆发。

事实上,不仅是百度,在包含语音的大模子智商对外输出上,国表里厂商都将价钱视作冲破口。

OpenAI 就有意从性价比启程,推出了 GPT-4o mini audio,但愿以更便宜的价钱打入语音应用阛阓。

2025 年,基础模子方面,模子厂商在推理模子上争相竞逐,而其带来的最径直的影响之一,是东说念主们关于大模子应用加速爆发预期的执续升温。在这个经过中,我们不错看到,站在模子厂商的角度,更多的模子在被开源,更多的职业在免费洞开,用户默契、情切的争夺之中,本钱自身正在变得愈加敏锐。

更毋庸提本钱即是大范围应用的要道:不仅是在模子厂商们的 APP 上,还要进一步走进手机、汽车……

正如 DeepSeek 在基础模子边界搅拌池水,目下,百度也在语音边界迈出要道一步。

本钱,正在成为刻下阶段模子厂商得到主动权的垂危冲破口。

One More Thing

从文小言的语音交互架构图中还不错看到,它像是个语音版百度搜索。

正如著述开篇我们体验到的,文小言能采集刻下的季节对用户问题给出更合理的回应。本色上,在语音功能中,文小言依然撑执多垂类助手智商,包括天气、日期查询、单元换算、股价股票等信息查询内容,预计 38 个垂类。

还撑执 DeepQA RAG 问答,包含百度查询等时效性问答内容,能采集检索收尾,作念到更精确的领导跟从;撑执 DeepQA 非 RAG 问答,包含学问问答等非时效性问答内容。

"有问题,问小言"的这个"问"字,确乎是越来越接近东说念主类蓝本的交互民风了。

这本色亦然产业趋势的一种映射——

之前都是大模子工夫探索,需要抑遏适配智力落地家具、变成应用,临了被用户感知。

目下这是大模子工夫和家具应用,简直在同期对都,工夫激动的时候就对准了应用场景,应用场景也能催生更适合的工夫,不是锤子找钉子,而是锤子钉子同期对都。

大模子依然是 AI 寰球的中枢,但寰宇却正在变成应用为王的寰宇。

百度,或者说中国 AI 玩家,运行找到我方的节拍了。

一键三连「点赞」「转发」「阻拦心」

接待在评述区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见步非烟 足交



 
友情链接:

Powered by 色表姐 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有