文章详情

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。
2025-04-25 04:15:30
文章详情介绍
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
最新星火攻略
更多- 洛克王国电影:奇幻冒险之旅的神秘探险与友谊故事
- 有效提升文明7游戏中城市数量限制的实用策略与方法
- 富士康在第四季度利润实现增长,AI服务器需求强劲推动业绩复苏
- 天国拯救2全方位攻略:炼金术高效技巧与深度策略分享,助你轻松游戏升级
- 曹操传珍稀宝物探索 曹操传宝物系统全面剖析及获取攻略
- 微软正在针对Windows记事本进行AI功能测试:文本选取自动总结,帮助用户轻松提炼信息精髓
- 天国拯救2活力技能点合理分配技巧:高效加点方案全解析
- 英伟达为其新一代AI芯片命名为Rubin,以致敬发现暗物质的著名天文学家
- 全面解析江湖各大职业武道大会的内容与精彩看点
- 小朋友齐打交出招表详细解析与应用指南,帮助孩子们掌握技巧
- 中国眼科新突破!AI智能“小青”闪耀登场:为2600万青光眼患者提供24小时无缝健康监护,光明未来触手可及!
- 神隐之子角色深度解析:探索神觉者春日希的背景与能力
- 地下城与勇士:阿拉德战记的全面分析与深度探讨,解密游戏中的精彩内容与玩法技巧
- 教育领域的重大突破!伴鱼AI私教系统惊艳上线:强势超越GPT,未来课堂的全新形态来了!
- 弓箭传说2:全面解析全新武器系统及其特殊属性和使用技巧
最新星火智能
更多- Prompts Playground 版本全新升级:全面优化功能并新增配置保存与共享能力
- 江湖灵活娴熟棍术赤练挑战全攻略详解与技巧解析
- 全新升级的AI助手Gemini现已根据你的搜索历史提供智能答案
- 软银庞大投资!日本超级工厂转型为AI核心,与OpenAI携手开创智能新时代
- 江湖风起云涌:小白在一个月内积累的实战经验与技巧分享
- 小真的开发日记1~4集樱花:探幽小真的开发过程,体悟背后的创意与坚持
- 研究揭示:AI搜索引擎在处理新闻查询时频繁出现错误,超过六成的结果无法令人信赖
- 江湖传奇:飞鹰堡八名英豪的史诗冒险与心路历程又将展现何种风云变幻
- OpenAI Operator增加地域服务范围,现在已为更多欧洲地区的用户提供访问权限
- 龙息神寂领悟深度分析:核心属性效果的全方位解析与理解
- 谷歌全面升级Flash Thinking2.0,向所有用户开放深度研究功能的全新体验
- 弓箭传说2:全面解读亚历克斯的技能强度与战斗策略分析
- 软银与OpenAI携手收购夏普旧厂,共同改造为运营智能AI数据中心
- 荒野国度华夫英雄技能深度解析与全面介绍,助你轻松掌握游戏技巧
- 颠覆性价比新标杆!优必选天工行者首发30万以下全尺寸科研级人形机器人,震撼登场引发业界关注