
一个 7B 奖励模子贬责全学科李蓉蓉 麻豆,大模子强化学习不啻数学和代码。 o1/r1 的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化进度高,奖励函数 / 奖励模子比较好打算。 那么,想栽培大模子在其他学科领域的才略该怎样办? 腾讯 & 苏州大学团队暴虐新框架 RLVR,顽强化学习测验彭胀到医学、化学、法律、心境学、经济学等多学科。 RLVR 使用基于生成模子的软奖励,与传统基于二元章程的奖励比较,在泛化、肃肃性和可彭胀性方面有显耀的栽培。 
除论文外,还开源了奖励模子和多学科数据集。 
7B 奖励模子贬责全学科 谋略基于一个意旨的发现:当任务有客不雅参考谜底时,不同大型话语模子在作念二元判断 ( 正确 / 特地 ) 时弘扬出高度一致性。 这大请安味着,并不需要在每个领域都测验一个大范围的奖励模子。相背,奏凯用现成的谣言语模子来充任考据器就能有用。 像这么的二元奖励固然通俗奏凯,但在参考谜底短少结构化的领域又不奏凯适用。 于是谋略团队进一步引入基于模子的软奖励(model-basedsoft scroing),比较奏凯给出 0 或 1 的二元硬标签,软奖励证明生成式考据器判断的置信度打分,有了更高的活泼性。 受启发于"大模子判断高度一致"的发现,团队用 72B 参数的 Qwen2.5-Instruct 蒸馏出一个 7B 的奖励模子。蒸馏经过不需要领域特定的标注,彻底依靠在线探索阶段采集的数据进行测验。 整个经过分为 3 步活水线: 李蓉蓉 麻豆
现实数据从 ExamQA 中连忙采样了 6000 个问题,鄙俗漫步于理工东谈主文各学科。 
现实对比基础模子(Base)、微调基础模子(SFT)、基于章程的 RL、使用 SFT 模子作为考据器,以及本文蒸馏的 RM-7B 模子作为考据器的多种要领,有以下论断: RM-7B 在解放神色谜底任务中弘扬出色 基于模子的奖励在处理非结构化参考谜底场景中优于基于章程的奖励 软奖励在处理多学科任务中,濒临复杂判断时比二元奖励弘扬更好 
此外现实还考据了基于模子的奖励在数据量增多时可彭胀性更好。 
在磋商部分,作家指出本谋略中未使用想维链推理(CoT),固然 CoT 在有参考和无参考的场景中都有用,但关于评估同话语的参考谜底和模子反映之间的语义等价性,潜入的推理依据是否必要仍有待谋略。此外,在 RLVR 的经过奖励建模中,当中间法子短少奏凯监督时,怎样分拨奖励亦然一个怒放问题。 本谋略也不合参考谜底或模子反映诞生神色敛迹,这么作念克己是减少了数据圭臬化和方式打算的东谈主力插足,但神色关系敛迹和奖励在这种情况下的作用仍需再行疑望。 One More Thing 论文作家腾讯涂兆鹏发帖先容了这篇著作,探讨强化学习是否不错彭胀到数学和编码任务以外。 
指摘区有网友指出很有可能拓荒,因为不同的测验要领不错当作有不同界限条目的学习空间。 自拍视频涂兆鹏也以为这个视角与 RLVR 要领的不雅点一致。 
论文地址: https://arxiv.org/abs/2503.23829 HuggingFace: https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f 参考聚会: [ 1 ] https://x.com/tuzhaopeng/status/1906975869538914570 一键三连「点赞」「转发」「预防心」 宽待在指摘区留住你的目的! — 完 — 速抢席位!中国 AIGC 产业峰会不雅众报名通谈已开启 � � ♀️ 首批嘉宾曝光啦 � � 百度、无问芯穹、数势科技、生数科技、像素怒放等十数位 AI 领域创变者将都聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~ 4 月 16 日,就在北京,一都来深度求索 AI 怎样用 � � � � 一键星标 � � 科技前沿进展逐日见李蓉蓉 麻豆
|