
没思到步非烟 足交,文小言接入推理模子的大更新背后,百度还藏了一手"质变"级工夫大招??? 
Talk is cheap,径直来看 Demo: 士别三日,文小言不仅能讲重庆话了,照旧成了哄娃的一把好手,被形状打断照样唠叨唠叨: 实测下来,Demo 不虚。这个全新语音对话功能,确乎更有东说念主味儿了,照旧能紧贴当下实事的那种—— 只是让 Ta 推选周末迁延去向,Ta 我方就能主动采集刻下 4、5 月份的实验时刻,给出愈加合理的建议。 划重心,这是免费的。目下你也相通不错翻开手机里的文小言,径直体验这一全新升级的及时语音对话功能。 但!是! 淌若单说语音体验,那还真不是这个"大招"的重心。要道是,这回百度还败露了更多工夫细节。 我们仔细一看,还果真有真理了。 
领先,上来等于一个行业草创:以上及时语音对话后果,由百度全新推出的端到端语音话语大模子结束,这是行业首个基于 Cross-Attention 的跨模态语音话语大模子。 有何不同?站在用户体验的角度来说,等于语音合成蔓延更低,对话更真实多情谊。 而更垂危的少量是,这样个新模上线,文小言在语音书答场景中的调用本钱,最高能缩短 90%!径直打掉了工业级落地的门槛。 (再也不怕模子厂流量大到挂我职业 .jpg) 我们提神到,百度语音首席架构师贾磊,其实用到了"质变"这个词: 百度端到端语音话语大模子是有质变的,不是单纯把文本大模子用到语音边界。 语音场景有其专有之处。此前,寰球莫得充分挖掘这个应用场景的不同,照旧按照把文本大模子用到语音场景的阶梯,把速率加速一下,工程优化一下。 我们的更正架构,让大模子在语音场景中的应用结束了极低本钱,更故意于大模子普及。 等于说,这一次语音工夫的更新,不单是是工程上的技能,百度正在通过工夫更正,买通大模子落地语音场景的工业级应用新范式。 行业首个基于 Cross-Attention 的端到端语音话语模子 话说到这了,我们就来沿路仔细扒一扒背后工夫有蓄意,望望究竟是奈何一趟事。 先给寰球划个重心: 老到大模子的小伙伴都知说念,KV cache 好像加速自转头推理,但其在存储和走访上的支出,也会跟着序列长度和模子范围增大而爆炸式增长。 因此在保证模子性能的前提下,缩短 KV cache,关于大模子应用来说,是提高推理着力、缩短本钱的一爽直道。 百度这次推出的基于 Cross-Attention 的端到端语音话语模子,重心就在于此。 具体来说,百度作念了以下更正: 业内草创的基于 Cross-Attention 的跨模态语音话语大模子 Encoder 和语音识别经过交融,缩短 KV 诡计 Decoder 和语音合成模子交融 更正提倡基于 Cross-Attention 的高效全查询提神力工夫(EALLQA),缩短 KV cache 我们一项一项伸开来看。 基于 Cross-Attention 的跨模态语音话语大模子 全体上,这个端到端语音话语大模子是基于 Self-Attention 的文心预试验大模子,接管自蒸馏的方式进行后试验得到。试验数据为文本和语音合成数据的搀杂。通盘这个词模子接管 MoE 结构。 要道点在于,在端到端语音识别中,声学模子亦然话语模子,因此在整合语音识别和空话语模子的经过中,好像通过将空话语模子中的 Encoder 和语音识别的经过交融分享,达到缩短语音交互硬蔓延的指标。 而在语音边界,Cross-Attention 自然具有跨模态上风:Decoder 会显式地将 Encoder 输出纳入提神力诡计,使得 Decoder 在每一个解码形势都能动态走访最磋商的输入向量,从而充分地对都和诈欺跨模态信息。 
基于 Cross-Attention 的高效全查询提神力工夫(EALLQA) 不外,Cross-Attention 的引入带来了另一个问题:MLA 的位置编码工夫,在 Cross-Attention 中容易出现不褂讪的表象。 为此,百度语音团队提倡了高效全查询提神力工夫(EALLQA): 接管更正的隐式 RNN 两级位置编码,试验时是在 128 空间上的 MHA,推理时是在模子各层分享的 512 空间上的 MQA(AllQA)。既充分诈欺了有限的试验资源,也极地面缩短了推理本钱。 
从具体后果上来说,EALLQA 工夫能使 KV cache 降至原来的几十分之一,并将 Cross-Attention 的最近上一个问题的 KV 诡计降至原来的十分之一,极大缩短了语音交互时用户的恭候时刻和模子推理本钱。 
缩短本钱的另一个要道,则是 Encoder 和语音识别系统的交融:对 Query 清爽的模子较小,能极大减少 KV 诡计。 流式逐字的 LLM 驱动的厚情谊语音合成 试验、推理本钱的缩短以外,端到端语音话语大模子还通过语音模子和话语模子的交融,结束了文学妥贴、情谊契合、当然流通的合成音频的生成。 
一方面,研发团队通过大范围文本 - 语音数据自监督预试验,构建语义 + 韵律的疏忽化特征空间,通过双层 GPT-like Transformer,结束了韵律、音色双 Prompt 截至机制。 另一方面,在此基础之上,研发团队推出了语音话语大模子与合成一体化流式逐字合成。 有别于传统语音合成的整句输出,流式逐字相称于一个字一个字地合成。在这个经过中,话语大模子好像指导语音模子去生成情谊、停顿,识别多音字等等,结束更为拟东说念主、当然的语音合成后果。 需要提神的是,东说念主耳接管信息本色上是一个字一个字地接管,但关于 AI 而言,淌若 1 个 token 接 1 个 token 的输出,就需要处分并发的问题,以使 MoE 架构最猛进程发扬作用。 流式逐字合成要处分的中枢问题,等于在适配东说念主听力的基础上,结束高并发。 通过引入流式逐字合成,百度端到端语音话语大模子灵验提高了语音交互的反应速率,同期缩短了语音交互边界使用大模子本钱。与大模子交融的 TTS 文学作风姿色截至,还不错字据文本输出自适配的情况,情谊遮掩达到 17 种。 
肤浅总结一下,百度的端到端语音话语大模子,一方面是重心处分了大模子应用于语音交互场景本钱高、速率慢的问题。 另一方面,空话语模子带来的语义清爽等智商,也处分了传统语音交互中,同音字识别、打断、真实情谊等痛点。 贾磊败露,目下,通盘这个词端到端语音话语大模子在 L20 卡上即可部署,在振奋语音交互硬蔓延条目的情况下,双 L20 卡并发不错作念到数百以上。 极低本钱是要道 说了这样多,最主要的要道词其实等于:低本钱。 在与贾磊的进一步换取中,他向我们强调了缩短本钱的垂危性: 欧美性极低本钱就意味着大范围工业化变得荒谬容易。 2025 年,大模子的中枢并不在于展示什么新功能,而是能以多快速率真实应用到民生国计中去。 在不辩论诡计资源的情况下,及时语音交互有其他旅途不错结束,但"我们今天是第一个作念到跨模态端到端极低本钱处分语音书题的"。 
贾磊还示意,但愿语音边界的这一冲破更正能被行业更多地情切到。 我们思要把中枢工夫分享出去,告诉寰球我们是奈何作念的,以此推动通盘这个词边界的爆发。 事实上,不仅是百度,在包含语音的大模子智商对外输出上,国表里厂商都将价钱视作冲破口。 OpenAI 就有意从性价比启程,推出了 GPT-4o mini audio,但愿以更便宜的价钱打入语音应用阛阓。 2025 年,基础模子方面,模子厂商在推理模子上争相竞逐,而其带来的最径直的影响之一,是东说念主们关于大模子应用加速爆发预期的执续升温。在这个经过中,我们不错看到,站在模子厂商的角度,更多的模子在被开源,更多的职业在免费洞开,用户默契、情切的争夺之中,本钱自身正在变得愈加敏锐。 更毋庸提本钱即是大范围应用的要道:不仅是在模子厂商们的 APP 上,还要进一步走进手机、汽车…… 正如 DeepSeek 在基础模子边界搅拌池水,目下,百度也在语音边界迈出要道一步。 本钱,正在成为刻下阶段模子厂商得到主动权的垂危冲破口。 One More Thing 从文小言的语音交互架构图中还不错看到,它像是个语音版百度搜索。 
正如著述开篇我们体验到的,文小言能采集刻下的季节对用户问题给出更合理的回应。本色上,在语音功能中,文小言依然撑执多垂类助手智商,包括天气、日期查询、单元换算、股价股票等信息查询内容,预计 38 个垂类。 还撑执 DeepQA RAG 问答,包含百度查询等时效性问答内容,能采集检索收尾,作念到更精确的领导跟从;撑执 DeepQA 非 RAG 问答,包含学问问答等非时效性问答内容。 "有问题,问小言"的这个"问"字,确乎是越来越接近东说念主类蓝本的交互民风了。 这本色亦然产业趋势的一种映射—— 之前都是大模子工夫探索,需要抑遏适配智力落地家具、变成应用,临了被用户感知。 目下这是大模子工夫和家具应用,简直在同期对都,工夫激动的时候就对准了应用场景,应用场景也能催生更适合的工夫,不是锤子找钉子,而是锤子钉子同期对都。 大模子依然是 AI 寰球的中枢,但寰宇却正在变成应用为王的寰宇。 百度,或者说中国 AI 玩家,运行找到我方的节拍了。 一键三连「点赞」「转发」「阻拦心」 接待在评述区留住你的思法! — 完 — � � 点亮星标 � � 科技前沿进展逐日见步非烟 足交
|