AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
5698 AI技术研报
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
5887 AI技术研报
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
5937 AI技术研报
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习
7166 AI技术研报
苹果出手!改进GRPO,让dLLM也能高效强化学习

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
8160 AI技术研报
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
5589 AI技术研报
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
8007 AI技术研报
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

强化学习新发现:无需数学样本,仅游戏训练AI推理大增

强化学习新发现:无需数学样本,仅游戏训练AI推理大增
6732 AI技术研报
强化学习新发现:无需数学样本,仅游戏训练AI推理大增

只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题

只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
7794 AI技术研报
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
6469 AI技术研报
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
上一页 当前第1页,共22页 下一页
沪ICP备2023015588号