AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性

周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性
9401 AI技术研报
周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
7444 AI技术研报
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
7339 AI技术研报
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
7576 AI技术研报
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习
8849 AI技术研报
苹果出手!改进GRPO,让dLLM也能高效强化学习

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
9983 AI技术研报
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
7690 AI技术研报
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
9695 AI技术研报
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

强化学习新发现:无需数学样本,仅游戏训练AI推理大增

强化学习新发现:无需数学样本,仅游戏训练AI推理大增
8847 AI技术研报
强化学习新发现:无需数学样本,仅游戏训练AI推理大增

只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题

只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
9195 AI技术研报
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
上一页 当前第16页,共37页 下一页
沪ICP备2023015588号