快手-W(01024)早盘上涨3.47% ,现报52.20港元,成交额7.68亿港元 。
4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本 ,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法 。
通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6) ,超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。
本文来自作者[admin]投稿,不代表若地号立场,如若转载,请注明出处:https://redac-nomade.com/mjfx/202504-8290.html
评论列表(4条)
我是若地号的签约作者“admin”!
希望本篇文章《快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源》能对你有所帮助!
本站[若地号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: 快手-W(01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。 4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。...