门窗网站模板wordpress主题inn

张小明 2026/1/9 18:52:05
门窗网站模板,wordpress主题inn,linux创建网站,工商企业信息查询ProRL#xff1a;延长强化学习训练#xff0c;扩展大语言模型推理边界——NeurIPS 2025论文解读一段话总结#xff1a; 这篇论文来自NVIDIA团队#xff0c;标题是《ProRL#xff1a;延长强化学习扩展大语言模型的推理边界》#xff0c;发表于NeurIPS 2025。它直击当前AI热…ProRL延长强化学习训练扩展大语言模型推理边界——NeurIPS 2025论文解读一段话总结这篇论文来自NVIDIA团队标题是《ProRL延长强化学习扩展大语言模型的推理边界》发表于NeurIPS 2025。它直击当前AI热点强化学习RL在提升语言模型推理能力时到底是真正“解锁”新策略还是只是优化了基础模型中已有的高奖励输出作者挑战了后者的观点认为过去研究训练太短、任务太窄。通过“ProRL”方法他们证明了延长RL训练能让模型发现基础模型采样中完全缺失的新推理路径甚至在某些任务上从0%成功率飙升到100%。他们开源了1.5B参数的Nemotron-Research-Reasoning-Qwen-1.5B模型在数学、代码、逻辑谜题等领域大放异彩。ProRL的核心是基于GRPO算法的升级版针对长训练的“熵崩溃”问题模型输出分布过早峰化探索不足。他们引入了KL散度控制防止政策偏离参考策略太远、动态采样过滤太易太难的任务聚焦中等难度和参考策略重置周期性更新参考模型避免KL项主导损失。这些trick让训练稳定超过2000步总计算16k GPU小时。数据集覆盖13.6万多领域问题数学、代码、STEM、逻辑、指令跟随奖励信号可验证确保RL可靠对齐。实验结果亮眼这个1.5B模型在数学基准上pass1平均提升15.7%代码14.4%逻辑谜题高达54.8%甚至匹敌7B大模型。在出分布任务上基础模型全失败而ProRL轻松翻盘。分析显示RL获益与基础模型初始能力负相关——基础弱的任务RL扩展最猛用“创意指数”量化新推理轨迹与预训练语料重叠少证明了真正的新颖性。总之这篇论文为RL研究者提供了宝贵洞见延长训练不是资源浪费而是通往通用推理AI的钥匙。它强调多样任务和稳定机制的重要性未来可探索更长时序RL。模型已在Hugging Face开源值得大家试玩——RL不只优化采样还能“发明”新知识大家好我是专注RL和LLM的博主。今天我们来聊聊NeurIPS 2025的一篇重磅论文《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》。这篇由NVIDIA团队Mingjie Liu等撰写的论文直击当前reasoning-centric LLM领域的核心争议强化学习RL是否真正能“解锁”模型的新推理能力还是只是优化了base model中已有的高奖励输出采样效率作为RL研究者你可能对PPO/GRPO等算法的变体和KL正则化很熟悉这篇论文提供了实证证据展示了prolonged RL在扩展推理边界上的潜力。论文不仅发布了1.5B参数的开源模型Nemotron-Research-Reasoning-Qwen-1.5B还通过细致的分析揭示了RL训练动态的几个关键insight。咱们一步步拆解带上公式和数据面向RL视角来聊。背景RL在Reasoning LLM中的争议与机遇近年来OpenAI的o1和DeepSeek-R1等模型通过test-time scaling如长链式思考CoT和RL对齐显著提升了数学、代码生成等复杂任务的表现。这些模型在推理过程中持续消耗计算资源进行探索、验证和回溯从而生成更长的reasoning traces。但RL的核心价值何在传统观点认为RL能对齐可验证奖励避免reward hacking[9-11]并逼近正确推理过程。然而近期研究如[13-15]基于passk指标质疑RL-trained模型并未超出base model的分布只是提高了采样效率。论文作者认为这源于方法论局限(1) 过度依赖数学等“过拟合”领域限制探索(2) RL训练过早停止通常数百步未给模型足够时间挖掘新策略。论文的切入点正是这里通过Prolonged RL (ProRL)证明RL能在足够计算下发现base model采样中完全缺失的新推理路径。实验中他们从DeepSeek-R1-Distill-Qwen-1.5B一个已能生成CoT的checkpoint起步训练出全球最佳1.5B reasoning模型平均pass1提升14.7%数学、13.9%代码、54.8%逻辑谜题等甚至匹敌7B模型。这不只是数字堆砌而是通过2k训练步的scaling展示了RL的“长跑”潜力。ProRL方法稳定延长RL训练的核心trickProRL的核心是基于Group Relative Policy Optimization (GRPO) [16]的增强版针对prolonged training的痛点如entropy collapse和不稳定性设计。咱们先回顾GRPO基础然后看创新。GRPO基础GRPO是PPO [17]的简化版去掉value model用group scores估计baseline。目标函数为LGRPO(θ)Eτ∼πθ[min⁡(rθ(τ)A(τ),clip(rθ(τ),1−ϵ,1ϵ)A(τ))] L_{GRPO}(\theta) \mathbb{E}_{\tau \sim \pi_\theta} \left[ \min \left( r_\theta(\tau) A(\tau), clip(r_\theta(\tau), 1 - \epsilon, 1 \epsilon) A(\tau) \right) \right]LGRPO​(θ)Eτ∼πθ​​[min(rθ​(τ)A(τ),clip(rθ​(τ),1−ϵ,1ϵ)A(τ))]其中rθ(τ)πθ(τ)πold(τ)r_\theta(\tau) \frac{\pi_\theta(\tau)}{\pi_{old}(\tau)}rθ​(τ)πold​(τ)πθ​(τ)​是概率比优势函数A(τ)A(\tau)A(τ)基于group内相对分数A(τ)Rτ−mean({Ri}i∈G(τ))std({Ri}i∈G(τ)) A(\tau) \frac{R_\tau - mean(\{R_i\}_{i \in G(\tau)})}{std(\{R_i\}_{i \in G(\tau)})}A(τ)std({Ri​}i∈G(τ)​)Rτ​−mean({Ri​}i∈G(τ)​)​这简化了计算尤其适合reasoning任务的binary/continuous奖励。挑战Entropy Collapse与Instability在prolonged RL中输出分布快速峰化entropy collapse导致探索不足——GRPO依赖多样采样来估计相对优势一旦collapse更新就偏置训练停滞。作者观察到提高rollout temperaturee.g., 1.2仅延迟问题无法根治。ProRL的解决方案借力DAPO [4]组件Decoupled Clipping将PPO的clip bounds分离clip(rθ(τ),1−ϵlow,1ϵhigh)clip(r_\theta(\tau), 1 - \epsilon_{low}, 1 \epsilon_{high})clip(rθ​(τ),1−ϵlow​,1ϵhigh​)设ϵlow0.2,ϵhigh0.4\epsilon_{low}0.2, \epsilon_{high}0.4ϵlow​0.2,ϵhigh​0.4。高上界鼓励“clip-higher”提升低概率token促进探索。Dynamic Sampling过滤accuracy0或1的prompt只训intermediate难度样本确保学习信号多样。KL Regularization显式添加KL罚项稳定分布并防overfittingLKL−RL(θ)LGRPO(θ)−βDKL(πθ∣∣πref) L_{KL-RL}(\theta) L_{GRPO}(\theta) - \beta D_{KL}(\pi_\theta || \pi_{ref})LKL−RL​(θ)LGRPO​(θ)−βDKL​(πθ​∣∣πref​)这里πref\pi_{ref}πref​是reference policy。近期工作[4,5,7,18]建议移除KL因CoT任务自然diverge但作者从已SFT的checkpoint起步发现KL仍有价值维持entropy避免drift到spurious rewards。Reference Policy Reset训练中KL项渐主导loss导致更新微弱。trick周期性hard-resetπref\pi_{ref}πref​为当前πθ\pi_\thetaπθ​的snapshot并重置optimizer states。这像“重启”KL锚点允许进一步divergence同时保持稳定性。实验中这让训练超2k步pass1持续提升图1左。训练setupverl [20]框架batch256n16 samples/promptlr2×10−62\times10^{-6}2×10−6总16k GPU-hours4x H100节点。数据集136K verifiable examples覆盖math/code/STEM/logic/instruction详见Appendix E。后期放宽context到16k tokens避免“overthinking” [40]。这些设计让ProRL在长时序上稳定图2显示entropy未崩response length与score正相关但非决定性pass1/16线性scaling。实验结果跨域泛化匹敌大模型作者用多样基准评估math (AIME/AMC/MATH等)code (APPS/Codeforces/HumanEval)STEM (GPQA Diamond)logic (Reasoning Gym)instruction (IFEval)。Inferencevllm [38]temp0.6top_p0.95max len32k。关键表格Math (Table 1)ProRL模型pass1 avg 60.14%15.7% vs base超DeepScaleR-1.5B [3] (4.6%)。ModelAIME24AIME25AMCMATHMinervaOlympiadAvgBase 1.5B28.5422.7162.5882.9026.3843.5844.45ProRL 1.5B48.1333.3379.2991.8947.9860.2260.14Ref 7B53.5440.8382.8395.6850.6057.6663.19Code (Table 2)avg 37.49% (14.4%)超DeepCoder-1.5B [7] (6.5%)。ModelAPPSCCCFTACOHumanEvalLCBAvgBase 1.5B20.9516.7914.138.0361.7716.8023.08ProRL 1.5B41.9931.8034.5020.8172.0523.8137.49STEM/Instruction/Logic (Table 3)GPQA 25.9%IFEval 22.0%Reasoning Gym 54.8%。OOD任务acre/boxnet/game_of_life提升巨大e.g., game从3.49%到52.29%证明泛化。ModelGPQAIFEvalReasoning GymAcreBoxnetGameBase 1.5B15.8644.054.245.990.003.49ProRL 1.5B41.7866.0259.0658.577.9152.29对比7B baseProRL 1.5B在多域匹敌或超e.g., code avg 37.49% vs 41.39%但OOD远胜。这显示generalist prolonged RL优于domain-specific训练。分析ProRL如何扩展推理边界核心问题是RL是否“新”作者用pass256重评选18个Reasoning Gym任务其他基准对比base、中间checkpoint和final模型。Insight 1: “弱起步强获益”——RL在base弱域最有效图3左base pass128与RL增益负相关Pearson r显著。base强任务高pass128post-RL增益小/负narrowing boundary模型自信于已知路径base弱任务ProRL大幅扩展探索pass1/128双升。用Creativity Index [12,41]量化新颖性对base响应计算与DOLMA [42]预训语料overlap。图3右低增益任务creativity低base已“见过”类似数据。这暗示RL最能“填补空白”——在solution space的未探索区。Insight 2: 训练动态的三种regime图4按passk趋势分类Diminishmath域常见pass1升但128降RL sharpen分布牺牲diversitybase已有足够能力。Plateau早期RL获益大后期饱和intermediate vs final无差。Sustainedcode/STEM等prolonged训练持续扩展e.g., code pass128线性增证明长步数下新模式emergence。极端case若干任务base无论多少sample全failpass∞0ProRL达100%——纯新能力Insight 3: Novelty via Creativity Index图1中ProRL轨迹creativity高低overlap反映新reasoning patterns。结合OOD提升证实RL非“采样优化”而是populate新solution regions。对RL研究者的启发与展望这篇论文对我们RLer有几大insightProlonged Scaling Works2k步下RL非饱和而是持续获益——尤其用KLreset防collapse。未来可探索自适应β\betaβ或multi-group baselines。Task Competence Predicts Gainsbase弱域是RL“甜点”。设计时优先动态采样intermediate样本insightRL像“边界探索器”非uniform提升。Diverse Rewards Enable Generalization136K多域数据verifiable rewards防domain overfitting。建议long-horizon RL中mix binary/continuous rewards测试stability。KL的“双刃剑”从SFT checkpoint起步KL仍需——但需reset防dominance。挑战如何自动化reset timingMeasure True Expansionpasskcreativity index单纯pass1。未来轨迹多样性指标如trajectory entropy可量化“新”。总之ProRL挑战了“RL仅优化采样”的叙事证明prolonged compute下RL能emergent新知识潜力超人类insights。模型权重已开源于Hugging FaceRLer们快去复现欢迎评论你的想法——下篇聊o1的RL细节参考论文PDF附件NeurIPS 2025。ProRL在长训练下的熵崩溃机制从现象到根因剖析作为RL研究者你可能对policy optimization中的entropy管理再熟悉不过尤其在LLM的reasoning任务中长时间训练prolonged RL往往会暴露一些棘手问题。NeurIPS 2025的这篇ProRL论文NVIDIA团队直击其中之一entropy collapse熵崩溃。这不是新鲜事儿PPO/GRPO等on-policy方法中常见但在长时序RL如2k训练步下它会放大成训练瓶颈导致模型探索受限、性能饱和。论文第2.2.1节详细剖析了这一机制并通过实证展示了其在reasoning LLM如基于DeepSeek-R1的1.5B模型中的表现。下面我从现象、根因、影响和论文的洞见四个维度结合公式和实验数据帮你拆解清楚。咱们用RL视角看这本质上是分布退化distribution degeneration类似于mode collapse但更偏向于exploration failure。1. 现象早期峰化与熵急剧衰减Entropy collapse的核心表现是模型输出分布在训练早期快速峰化overly peaked导致熵entropy急剧下降。简单说政策πθ\pi_\thetaπθ​从初始的宽广分布高熵促进探索迅速收敛到少数高概率token的狭窄子集输出变得“确定性”过度。量化描述论文中熵H(πθ)−∑p(x)log⁡p(x)H(\pi_\theta) -\sum p(x) \log p(x)H(πθ​)−∑p(x)logp(x)token-level在训练头几百步内可降至初始值的20-30%图2暗示通过KL监控。这不同于正常KL-regularized训练的渐进衰减而是“崩溃式”一旦发生模型就“卡住”后续rollout样本高度重复。触发时机在prolonged training中早起e.g., 100-500步最易发生尤其当奖励信号verifiable rewards如math/code的binary score强烈时。论文观察到在GRPO [16]框架下这比PPO更敏感因为GRPO依赖group-relative advantages见下文。实验证据论文用DeepSeek-R1-Distill-Qwen-1.5B作为base从136K多样任务math/code/STEM/logic/instruction训练。无干预下entropy在~300步后崩塌pass1停滞图1左加干预后维持到2k步pass1线性scaling。2. 根因探索-利用失衡与相对优势偏差从RL机制看entropy collapse源于on-policy方法的内在动态高奖励路径的强化反馈放大导致分布塌缩。论文将它归为prolonged policy optimization的“关键挑战”根因可拆成三层反馈放大效应Reward Amplification在reasoning任务中奖励R(τ)R(\tau)R(τ)τ\tauτ为trajectory如CoT trace是verifiable的e.g., 正确解1错0。早期高奖励τ\tauτ的概率p(τ∣πθ)p(\tau|\pi_\theta)p(τ∣πθ​)通过policy gradient快速上调∇θJ(θ)∝Eτ∼πθ[A(τ)∇θlog⁡πθ(τ)] \nabla_\theta J(\theta) \propto \mathbb{E}_{\tau \sim \pi_\theta} [A(\tau) \nabla_\theta \log \pi_\theta(\tau)]∇θ​J(θ)∝Eτ∼πθ​​[A(τ)∇θ​logπθ​(τ)]GRPO的简化版A(τ)A(\tau)A(τ)为group-relative advantage。这像“富者愈富”少数成功路径latent in base model被过度强化熵自然衰减。但在长训练下缺乏新探索模型无法“逃逸”局部最优。GRPO特有偏差Group-Relative Estimation BiasGRPO的核心是去掉critic用group scores{Ri}i∈G(τ)\{R_i\}_{i \in G(\tau)}{Ri​}i∈G(τ)​估计baselineA(τ)Rτ−mean({Ri}i∈G(τ))std({Ri}i∈G(τ)) A(\tau) \frac{R_\tau - mean(\{R_i\}_{i \in G(\tau)})}{std(\{R_i\}_{i \in G(\tau)})}A(τ)std({Ri​}i∈G(τ)​)Rτ​−mean({Ri​}i∈G(τ)​)​当熵崩后group内样本{τi}\{ \tau_i \}{τi​}高度相似低多样性std({Ri})std(\{R_i\})std({Ri​})趋近0导致A(τ)A(\tau)A(τ)噪声放大或偏置。结果更新信号退化为“追逐已知高R路径”探索崩塌。论文强调这在reasoning LLM中更糟因为CoT trajectories长8k-16k tokens小偏差累积成大问题。无外部锚点Lack of Anchoring标准PPO/GRPO的KL penaltyDKL(πθ∣∣πref)D_{KL}(\pi_\theta || \pi_{ref})DKL​(πθ​∣∣πref​)本该防drift但论文观察到在SFT后checkpoint起步时πref\pi_{ref}πref​old policy太“保守”长训下KL主导loss抑制更新LKL−RL(θ)LGRPO(θ)−βDKL(πθ∣∣πref) L_{KL-RL}(\theta) L_{GRPO}(\theta) - \beta D_{KL}(\pi_\theta || \pi_{ref})LKL−RL​(θ)LGRPO​(θ)−βDKL​(πθ​∣∣πref​)β\betaβ过大时等价于强制回归πref\pi_{ref}πref​熵进一步压低。近期工作[4,5,7,18]建议移除KL因CoT自然diverge但ProRL反证在已CoT-capable base下KL必要但需动态调整。根因总结这是探索-利用trade-off的极端失衡长训放大反馈循环导致分布从multi-modal退化为degenerate单模或低维。3. 影响训练停滞与边界收缩直接后果探索受限模型“prematurely commits to narrow outputs”新reasoning patterns如novel CoT无法emergent。论文图3/4显示在collapse后passkk128/256不升反降diminish regime尤其math域base已强RL sharpen分布牺牲diversity。间接影响在多样任务下泛化差OOD如Reasoning Gym的acre/boxnet从0%到~50%需防collapse计算浪费16k GPU-hours中无干预仅~500步有效。与prior work对比[13-15]的“RL仅优化采样”结论可能源于未控collapse他们短训数百步未见真扩展。论文insightcollapse与base competence负相关图3左base弱任务低pass128collapse慢RL获益大sustained gainsbase强任务易早崩plateau/diminish。4. 论文洞见与启发不止机制还有解法ProRL不只诊断还提供了实操框架DAPO [4] KL reset让长训稳定。关键trick延迟机制高rollout temp1.2增初始HHHdecoupled clipclip(rθ,1−ϵlow,1ϵhigh)clip(r_\theta, 1-\epsilon_{low}, 1\epsilon_{high})clip(rθ​,1−ϵlow​,1ϵhigh​)ϵlow0.2,ϵhigh0.4\epsilon_{low}0.2, \epsilon_{high}0.4ϵlow​0.2,ϵhigh​0.4鼓励“clip-higher”抬低prob tokens。根治机制Dynamic sampling滤易/难promptacc0/1保intermediate信号KL penalty稳定driftReference Policy Reset周期hard-resetπref←πθ\pi_{ref} \leftarrow \pi_\thetaπref​←πθ​ optimizer reinitialize像“中继锚点”防KL dominance。图2这些让entropy平稳response len与score正相关但非因果。量化验证Creativity Index [12]响应与DOLMA [42] overlap升图1中证明新patterns emergence无collapse2k步pass1/16持续增。对RLer的启发理论Entropy collapse是long-horizon RL的“相变”点需model distribution dynamicse.g., Fisher info matrix追踪。实践在LLM-RL中mix binary/continuous rewards periodic reset是标配未来可试自适应β\betaβ基于entropy threshold。扩展论文开源模型Hugging Face建议复现监控std({Ri})std(\{R_i\})std({Ri​})作为early warning。总之ProRL揭示熵崩溃不是RL“宿命”而是未优化动态的产物。长训下它暴露base的“盲区”但控好机制就能推边界e.g., 1.5B匹敌7B。想深挖论文Appendix F有训练recipe欢迎讨论你的实验ProRL论文第4.4节解读pass1分布如何随ProRL训练演化——结合Dang et al. [14]的上界公式大家好继续我们的ProRL系列。作为RL研究者你可能对passk指标在LLM reasoning评估中的微妙动态很感兴趣。第4.4节“How Does pass1 Distributions Evolve as ProRL Progresses?”是论文分析部分的收尾聚焦于训练过程中pass1分布的演化。它直接回应了Dang et al. [14]的质疑RL训练可能因variance增加而降低passk上限通过实证数据证明ProRL的延长训练能显著右移pass1分布提升期望准确率expected pass1从而克服variance的负面效应实现持续scaling。这节不只量化了分布变化还为long-horizon RL提供了关键insight稳定训练下分布演化可预测RL的“真扩展” vs. “仅优化”。下面我结合公式、图表和上下文详细拆解。公式用$表示符号加表示符号加表示符号加。节背景从争议到ProRL的实证反驳回顾前文第4节整体论文挑战“RL仅提升采样效率”的观点[13-15]通过pass256重评证明ProRL在base弱任务上扩展reasoning boundary4.1节负相关弱起步强获益分类训练regime4.2节diminish/plateau/sustained泛化OOD/高难度任务4.3节e.g., boxnet从1.71%到7.91%。这些奠基4.4Dang et al. [14]推导的passk上界暗示RL训练中variance升分布变宽会压低上限导致passk衰减他们观察到训练中passk下降。但ProRL反例图1显示pass1/16持续增复现o1 [42]的scaling law。核心问题ProRL如何让分布演化“利大于弊”答案延长训练2k步驱动右移从低准确率峰向高移期望E[ρx]\mathbb{E}[\rho_x]E[ρx​]大增抵消KaTeX parse error: Undefined control sequence: \Var at position 1: \̲V̲a̲r̲(\rho_x)负面。insight这量化了“新策略emergence”——非base中latent的采样优化而是populate新高R区域。Dang et al. [14]公式详解passk的上界及其含义Dang et al.推导的数学上界是评估RL对reasoning boundary影响的理论锚点Ex,y∼D[passk]≤1−((1−Ex,y∼D[ρx])2Var(ρx))k/2 \mathbb{E}_{x,y \sim D}[\text{pass}k] \leq 1 - \left( \left(1 - \mathbb{E}_{x,y \sim D}[\rho_x]\right)^2 Var(\rho_x) \right)^{k/2}Ex,y∼D​[passk]≤1−((1−Ex,y∼D​[ρx​])2Var(ρx​))k/2符号定义x∼Dx \sim Dx∼D任务实例task instance从数据集分布DDD采样。e.g., 一个具体math问题、code challenge或logic puzzle。xxx代表prompt或问题ρx\rho_xρx​是模型对xxx的pass1准确率成功概率第一尝试正确。y∼Dy \sim Dy∼D模型对xxx的采样响应sampled response。在passk语境yyy是生成的输出e.g., CoT trace answerDDD是联合分布任务响应。Ex,y∼D\mathbb{E}_{x,y \sim D}Ex,y∼D​表示过任务-响应对的期望。ρx\rho_xρx​对特定xxx的pass1即Pr⁡(y correct for x)\Pr(y \text{ correct for } x)Pr(ycorrect forx)单次采样成功率。Ex,y∼D[ρx]\mathbb{E}_{x,y \sim D}[\rho_x]Ex,y∼D​[ρx​]跨任务的平均pass1expected accuracy反映整体competence。Var(ρx)Var(\rho_x)Var(ρx​)ρx\rho_xρx​的方差捕捉任务难度异质性hard tasksρx≈0\rho_x \approx 0ρx​≈0easy≈1\approx 1≈1或模型不稳定性。公式解读上界形式1−(a)k/21 - (a)^{k/2}1−(a)k/2其中a(1−μ)2σ2a (1 - \mu)^2 \sigma^2a(1−μ)2σ2μE[ρx]\mu \mathbb{E}[\rho_x]μE[ρx​]KaTeX parse error: Undefined control sequence: \Var at position 12: \sigma^2 \̲V̲a̲r̲(\rho_x)。μ\muμ效应μ\muμ越高(1−μ)2(1-\mu)^2(1−μ)2越小aaa降上界升。直观平均性能好passk易达高e.g., 若μ0.5\mu0.5μ0.5aaa小μ0.1\mu0.1μ0.1a≈0.81σ2a \approx 0.81 \sigma^2a≈0.81σ2大。KaTeX parse error: Undefined control sequence: \Var at position 1: \̲V̲a̲r̲效应σ2\sigma^2σ2越高aaa越大上界降。variance反映分布“散度”高var意味着多hard tasks长尾低ρx\rho_xρx​k次采样难cover全分布passk饱和慢。k/2k/2k/2幂源于Bernoulli过程的近似passk≈1−(1−ρx)k\approx 1 - (1-\rho_x)^k≈1−(1−ρx​)k的期望var项。k大时上界更敏感于var指数衰减。RL含义Dang观察RL训中var升分布峰化mode collapsepassk降——暗示RL“narrow boundary”。但ProRL反转训中μ\muμ增幅 var增净效应正。insight这公式是RL评估的“variance trap”预警。高var非坏事允许多样探索但需μ\muμscaling跟上。ProRL的KLreset确保此平衡。4.4节核心内容pass1分布的实证演化论文用code/logic任务的pass1分布直方图横轴0-1准确率展示演化图7a/b。从base到final ProRL经intermediate checkpoint初始分布base模型集中近0长右尾少数easy tasks高ρx\rho_xρx​。e.g., Codeforces多问题ρx≈0\rho_x \approx 0ρx​≈014.13% avg pass1表2family_relationshipslogicAppendix C.2示例复杂血缘推理几乎全0base挣扎格式/子任务。演化动态右移显著训后峰从0移向0.5-1。Codeforces分布变宽但峰右移broader patterns允许多样解法emergencefamily_relationships戏剧性从“predominantly zero”到“peaking at perfect”多数prompt达100%。var变化var略增宽分布但μ\muμ大升e.g., code avg 14.4%符合公式μ\muμ增克服varpass16持续升图1。机制驱动延长RLDAPO decoupled clip dynamic sampling促探索KL penalty防collapsereset允进一步diverge。结果足够Δμ\Delta \muΔμoffset var负效。与Dang对比Dang见训中passk降var主导ProRL见持续增μ\muμ主导。复现o1 scaling [42]暗示ProRL通用。图7洞见(a) Code初始长尾hard contests训后中高区填充sustained regime4.2节。(b) Logicnovel挑战如family_relationships从fail全移到solve全证明“纯新能力”base pass∞0ProRL100%。对RL研究者的insights与启发分布演化作为proxypass1分布右移 单纯avg升捕捉“新空间populate”。建议训中监控μ\muμvs.σ2\sigma^2σ2用公式预测passk ceiling。弱任务低初始μ\muμ高var潜力是ProRL甜点4.1。variance的双面高var促探索sustained gains但易trapdiminish。ProRL trickdynamic sampling滤extremeacc0/1保intermediate信号。理论-实证桥公式量化“何时RL扩展”——需ΔμΔσ2/k\Delta \mu \sqrt{\Delta \sigma^2 / k}ΔμΔσ2/k​近似。未来推导ProRL下var动态e.g., entropy~var proxy。实践复现时用blended val set3.3节track分布mix多域数据防var爆炸。开源模型HF易验e.g., Codeforces上测分布shift。总之4.4节强化论文thesisProRL非“variance killer”而是“distribution shaper”——延长训下分布演化解锁base不可及的reasoning。结合前节这为long-horizon RL铺路稳定短训。参考arXiv 2505.24864。后记2025年12月12日于上海。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

天津优化网站哪家好用天津市建设工程交易信息网

TikTok下载智能认证系统:告别手动Cookie管理的革命性方案 【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload 还在为频繁失效的Cookie而烦恼吗&#xff…

张小明 2025/12/29 5:33:35 网站建设

淳安县千岛湖建设集团网站wordpress+短视频主题

鸣潮自动化工具完整指南:新手也能快速上手的智能辅助方案 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸上锁合成 自动肉鸽 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮…

张小明 2026/1/2 9:55:09 网站建设

网站新增关键词wordpress提交文章

Stable Diffusion 2深度模型:从零开始掌握图像深度生成技术 【免费下载链接】stable-diffusion-2-depth 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/stable-diffusion-2-depth 在人工智能快速发展的今天,图像生成技术正以前所未有…

张小明 2025/12/29 16:33:50 网站建设

无锡网站公司电话域名绿标免费申请

温馨提示:文末有资源获取方式 随着“互联网服务”的深入渗透,桶装水配送行业也迎来了线上化的黄金机遇。一套成熟、灵活、可自主掌控的在线订水送水小程序系统,无疑是抓住这一机遇的强力工具。下面,让我们深入了解这套能够帮助您快…

张小明 2025/12/29 16:33:47 网站建设

湖南网站建设seo优化哪里有seo排名优化

实时信号扩展(RTS)详解 1. 相关系统调用 在信号处理中,有几个重要的系统调用,下面为你详细介绍: - sigpause :用于改变信号掩码并等待信号。其函数原型如下: #include <signal.h> int sigpause( int signum, /* signal */ ); /* Returns -1 on error, alwa…

张小明 2025/12/29 16:33:44 网站建设

微信网站建设多少钱商城网站开发周期

从人到人机再到人机环境的发展历程&#xff0c;本质上是人类认知与智能系统从感性主导向理性主导&#xff0c;再向感性与理性深度融合的演进过程&#xff0c;即情理分离到通情达理的过程。这一过程不仅重构了人机交互的底层逻辑&#xff0c;更推动了智能系统从“工具化”向“伙…

张小明 2025/12/29 16:33:42 网站建设