AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 大语言模型也会"技能退化"?北大阿里巴巴联合研究揭示AI训练中的隐藏危机

大语言模型也会"技能退化"?北大阿里巴巴联合研究揭示AI训练中的隐藏危机

管理员 2025-08-11 14:30:00

摘要:这项由北京大学计算机学院董艺泓、蒋雪等研究人员与阿里巴巴通义实验室联合开展的研究发表于2025年7月,研究成果已在arXiv预印本平台发布(论文编号:arXiv:2508.00222v3)。...

这项由北京大学计算机学院董艺泓、蒋雪等研究人员与阿里巴巴通义实验室联合开展的研究发表于2025年7月,研究成果已在arXiv预印本平台发布(论文编号:arXiv:2508.00222v3)。有兴趣深入了解的读者可以通过https://github.com/YihongDong/RL-PLUS获取完整代码和详细技术资料。

当我们训练大语言模型解决数学问题时,会遇到一个令人困惑的现象:模型经过强化学习训练后,虽然在标准测试中表现更好了,但它的整体能力边界却在悄悄收缩。这就像一个学生通过大量刷题提高了考试成绩,但解决新题型的能力反而下降了。

研究团队发现,目前主流的强化学习方法存在一个被称为"能力边界塌陷"的问题。用一个简单的比喻来理解:假设AI模型的能力就像一个人的知识面,原本这个人虽然每个领域都不够精通,但涉猎广泛。经过强化学习训练后,这个人在某个特定领域变得非常专业,但其他领域的知识却逐渐遗忘了,整体的知识覆盖面实际上缩小了。

这种现象在评估指标上有明确体现。研究人员使用了一个叫做"pass@k"的测试方法,简单说就是给模型k次机会来解决同一个问题,看它是否能在这k次尝试中至少成功一次。奇怪的是,经过强化学习训练的模型在只给一次机会时(pass@1)表现很好,但当给予更多尝试机会时(比如pass@128),它的优势就消失了,甚至不如原始模型。这说明训练并没有真正扩展模型的能力边界,而是让模型在已有能力范围内表现得更加确定性。

造成这一问题的根本原因在于,现有的强化学习方法过分依赖模型自己的探索,就像让一个人只能通过自己的思考来学习新知识,而不能向外界学习。由于大语言模型的可能输出空间极其庞大,而正确答案又很稀少(就像在浩瀚的海洋中寻找珍珠),模型很难通过自己的随机探索找到全新的解题思路。因此,它只能不断优化已经掌握的方法,这就导致了能力边界的收缩。

为了解决这个问题,研究团队提出了一个名为RL-PLUS的创新方法。这个方法的核心思想可以用孔子的教育理念来概括:"学而不思则罔,思而不学则殆"。现有的强化学习方法只是在"思"(利用自身已有知识),而缺少"学"(从外部获取新知识)。RL-PLUS则将这两者巧妙结合,既保持了内在的推理优化,又引入了外部数据的学习。

然而,将外部数据融入强化学习训练并非易事,主要面临两大技术挑战。第一个挑战是"分布不匹配"问题。这就像你想学习一道新菜的做法,但手头只有不同厨师在不同条件下的烹饪记录,这些记录的风格和习惯与你现在的烹饪方式差异很大,直接照搬可能会出现问题。第二个挑战是如何从外部数据中高效提取有价值的信息。模型天生倾向于关注那些它认为概率高的内容,但真正的创新往往隐藏在那些看似不太可能但实际正确的解题路径中。

针对第一个挑战,研究团队开发了"多重要性采样"技术。传统的重要性采样方法在处理外部数据时要么产生系统性偏差,要么方差过大导致训练不稳定。多重要性采样的巧妙之处在于,它不是试图精确估计外部数据的来源分布,而是构建一个包含多个策略的混合分布。这就像在做菜时,不是试图完全复制某一个大厨的手法,而是综合多个大厨的技巧,形成一个更稳定可靠的烹饪方案。

研究团队从贝叶斯决策理论的角度为这种方法提供了理论支撑。他们将对未知外部策略的估计看作一个决策问题:既要相信现有的经验(用当前模型作为先验知识),又要承认存在未知的可能性(用均匀分布表示最大不确定性)。通过这种平衡,得到的估计器能够在偏差和方差之间达到最优权衡。理论证明表明,只要混合策略中至少包含一个与目标策略相近的成分,整个估计器就能保持较低的方差,即使其他成分与目标策略相差很大。

针对第二个挑战,研究团队设计了"基于探索的优势函数"。这个函数的设计灵感来源于焦点损失函数,其核心思想是根据当前模型对某个正确答案的探索难度来调整学习信号的强度。具体来说,如果一个正确的解题步骤在当前模型看来概率很低(即难以探索),那么这个步骤就会获得更高的学习权重;相反,如果模型已经很容易想到这个步骤,那么相应的学习信号就会被抑制。

这种设计的妙处在于它能自适应地引导模型关注那些真正有价值的新知识。用一个形象的比喻:这就像一个老师在批改作业时,对于学生已经掌握得很好的知识点只是轻轻带过,而对于学生还没有掌握但非常重要的知识点则会重点标注和讲解。通过这种方式,模型能够优先学习那些正确但不容易发现的推理路径。

将这两个核心技术整合后,RL-PLUS的训练目标函数变成了内部优化和外部学习的协调组合。内部优化部分继续使用标准的策略梯度方法来改进模型在已有数据上的表现,而外部学习部分则使用多重要性采样和探索优势函数来从外部数据中获取新知识。这两部分不是简单的相加,而是经过精心设计的协同工作,确保既不会因为外部数据的引入而破坏原有的学习稳定性,也不会因为过分保守而错失学习新知识的机会。

特别值得注意的是,研究团队在设计中去除了传统强化学习中的梯度裁剪机制。虽然梯度裁剪能够确保训练稳定性,但它也会抑制那些来自外部数据的强烈学习信号,而这些信号恰恰可能包含了模型最需要学习的新知识。通过移除这一限制,RL-PLUS能够在遇到有价值的外部信息时进行更大幅度的参数更新,从而更有效地扩展能力边界。

研究团队在六个数学推理基准测试上对RL-PLUS进行了全面评估,包括AIME 2024、AIME 2025、AMC、MATH-500、Minerva和Olympiad等。实验结果显示,RL-PLUS在所有测试中都达到了最先进的性能水平。以Qwen2.5-Math-7B为基础模型,RL-PLUS的平均得分达到了53.4分,相比传统的SFT+GRPO方法提升了5.2个百分点。更重要的是,这种提升不是通过牺牲能力广度来实现的,而是真正的能力扩展。

为了验证RL-PLUS确实解决了能力边界塌陷问题,研究人员详细分析了不同方法的pass@k曲线。结果表明,传统的强化学习方法(如GRPO)虽然在pass@1上表现不错,但随着k值的增加,其优势逐渐消失,在某些情况下甚至低于原始基础模型。这证实了能力边界塌陷现象的存在。相比之下,RL-PLUS在所有k值下都保持了对基础模型的显著优势,证明它确实扩展了模型的能力边界而不是简单地提高了确定性。

研究团队还测试了RL-PLUS在跨领域任务上的泛化能力。他们在六个与数学无关的任务上进行了评估,包括编程任务(HumanEval、LiveCodeBench、Codeforces)和科学问答(ARC-c、GPQA-diamond、MMLU-Pro)。结果显示,RL-PLUS不仅在训练领域表现优异,在完全不同的领域中也展现出了强大的泛化能力,平均性能提升了3.9个百分点。这表明RL-PLUS学到的不是特定领域的技巧,而是更基础的推理能力。

为了验证方法的普遍适用性,研究人员在多种不同的语言模型上测试了RL-PLUS,包括LLaMA-3.1-8B、Deepseek-Math-7B和不同规模的Qwen2.5-Math模型。结果表明,无论基础模型的架构和规模如何,RL-PLUS都能带来持续稳定的改进。特别值得一提的是,在某些传统强化学习方法难以取得改进的模型上(如LLaMA-3.1-8B),RL-PLUS仍然实现了显著的性能提升,相对改进幅度高达69.2%。

训练动态分析揭示了RL-PLUS的另一个重要优势:它能够维持模型的探索能力。传统强化学习方法在训练过程中会出现"熵崩塌"现象,即模型变得过于确定性,失去了探索新解法的能力。而RL-PLUS训练的模型始终保持着适度的随机性,这意味着它们仍然具备发现新推理路径的潜力。同时,RL-PLUS的响应长度随训练进程稳步增长,表明模型正在学习更复杂、更深入的推理过程。

为了深入理解RL-PLUS各组件的贡献,研究团队进行了详细的消融实验。结果显示,多重要性采样和探索优势函数都是不可或缺的关键组件。移除多重要性采样会导致性能从53.4分下降到45.5分,这凸显了稳定的外部数据整合机制的重要性。移除探索优势函数则导致性能下降到50.9分,说明有针对性的探索引导对于高效学习确实至关重要。

研究团队还比较了不同的外部策略估计方法。他们发现,使用简单的代理策略或将外部策略概率设为1的方法都无法达到理想效果,而基于贝叶斯理论的策略估计方法能够带来2.9分的额外提升,验证了理论驱动设计的价值。

在训练稳定性方面,研究人员通过延长训练时间(超过原来的10倍)验证了RL-PLUS的稳健性。实验结果显示,模型的关键指标在长期训练中保持了良好的稳定性和持续改进趋势。测试得分和奖励信号呈现稳定的上升趋势,而策略熵快速收敛到一个健康的非零范围,表明模型在变得更加有效的同时仍然保持着必要的探索能力。

通过一个具体的案例分析,我们可以更清楚地看到RL-PLUS的优势。在一个关于博弈论的数学竞赛题中,传统的GRPO方法只能部分识别问题的核心(找到了"5的倍数"这一条件),但无法发现完整的解题模式,最终得出错误答案。SFT+GRPO的方法则完全误解了问题的博弈论本质,采用了错误的"模3"逻辑。而RL-PLUS则准确地识别出这是一个寻找P位置(第二玩家获胜位置)的博弈论问题,通过演绎推理成功导出了完整的失败位置模式(n ≡ 0 或 2 mod 5),并进行了清晰的分步计算,最终得出了正确答案。

这个案例生动地展示了RL-PLUS在多步推理能力上的显著优势。它不仅能够正确识别问题类型,还能进行复杂的逻辑推导,最后进行准确的计算。这种综合能力正是现代AI系统所追求的,也是RL-PLUS通过整合内外部学习所实现的重要突破。

从技术发展的角度来看,RL-PLUS代表了大语言模型训练方法的一个重要进步。它打破了传统强化学习只能在现有能力范围内优化的局限,为AI系统的能力扩展开辟了新的途径。这种方法不仅在数学推理领域取得了成功,其核心思想也可以推广到其他需要复杂推理的AI应用中。

说到底,RL-PLUS解决的是一个看似矛盾但实际上很现实的问题:如何让AI系统在变得更加精确的同时也保持开放性和创新能力。这就像培养一个优秀的学生,我们既希望他在考试中表现出色,又希望他能保持好奇心和探索精神,不断学习新的知识和技能。RL-PLUS通过巧妙地平衡内部优化和外部学习,为这个教育难题提供了一个技术层面的解决方案。

这项研究的意义远不止于技术本身。它揭示了AI训练中一个普遍存在但往往被忽视的问题,并提出了切实可行的解决方案。随着大语言模型在各个领域的应用越来越广泛,如何避免能力边界塌陷、保持系统的持续学习和创新能力,将成为AI发展中的一个关键问题。RL-PLUS为这个问题提供了重要的技术参考和理论基础。

Q&A

Q1:什么是大语言模型的"能力边界塌陷"问题?

A:能力边界塌陷是指大语言模型在强化学习训练后,虽然在标准测试中表现更好,但整体解决问题的能力范围实际上缩小了。就像学生通过刷题提高考试成绩,但面对新题型的能力反而下降。这种现象可以通过pass@k测试发现:模型在一次尝试时表现好,但给更多机会时优势消失。

Q2:RL-PLUS是如何解决能力边界塌陷问题的?

A:RL-PLUS采用"学思结合"的策略,既保持内部推理优化,又引入外部数据学习。它使用多重要性采样技术稳定整合外部数据,避免分布不匹配问题;同时用探索优势函数引导模型重点学习那些正确但难以发现的推理路径,从而真正扩展而非收缩模型的能力边界。

Q3:RL-PLUS在实际应用中效果如何?

A:RL-PLUS在六个数学推理基准测试中都达到了最先进性能,平均得分53.4分,比传统方法提升5.2分。更重要的是,它在跨领域任务中也表现出色,在编程和科学问答等完全不同领域平均提升3.9分,证明学到的是基础推理能力而非特定技巧。


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:人形机器人商业化元年爆发!优必选、智元亿元订单落地,工业场景开启“30%劳动力替代”新纪元
下一篇:华为突破5G网络故障诊断难题:让AI像老工程师一样"看透"网络问题根源
猜你喜欢
  • 上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学
  • 哈佛和微软联手打造AI"预言家":仅凭声音就能预测健康状况,准确率竟达92%
  • 斯坦福大学让AI在狼人杀游戏中学会人类级别的讨论和推理
  • 软件工程师的AI助手真能独当一面?Nebius AI 72B参数强化学习智能体破解代码修复难题
  • “苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
  • 微软研究团队揭秘:AI推理模型为什么会在"多步思考"时犯糊涂?
  • 央视曝光 AI 仿冒孙颖莎全红婵带货
  • 阿里巴巴团队发布突破性研究:揭开大语言模型强化学习的"黑盒子",两种技术组合竟能超越复杂算法
  • 宾州大学团队发明AI"追根溯源神器",让大模型无处藏身
  • OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
19 08, 2025
新加坡南洋理工大学重新定义3D重建:像智能手机看视频一样理解三维世界
Str Tom
站长
Str Tom 网络工作室
254
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客