快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源

2025-04-25 15:58:59 | 来源:黑到淘会新闻网
小字号

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源

.ct_hqimg {margin: 10px 0;} .hqimg_wrapper {text-align: center;} .hqimg_related {position: relative; height: 37px; overflow: hidden; background-color: #f6f6f6; text-align: center; font-size: 0; } .hqimg_related span {line-height: 37px; padding-left: 10px; color: #000; font-size: 18px; } .hqimg_related a {line-height: 37px; font-size: 15px; color: #000; } .hqimg_related .to_page {float: left; } .hqimg_related .to_page a {padding-left: 28px; } .hqimg_related .hotSe {display: inline-block; *display: inline; *zoom: 1; width: 11px; height: 11px; padding-top: 8px; background: url(//n.sinaimg.cn/780c44e8/20150702/hqimg_hot.gif) no-repeat; } .hqimg_related .hqimg_client {position: absolute; right: 25px; top: 0; padding-left: 18px; } 热点栏目 自选股 数据中心 行情中心 资金流向 模拟交易 客户端   快手-W(01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。  4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。


(责编:admin)

分享让更多人看到