AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

9401 AI技术研报

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

7444 AI技术研报

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

7339 AI技术研报

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

7576 AI技术研报

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

苹果出手！改进GRPO，让dLLM也能高效强化学习

苹果出手！改进GRPO，让dLLM也能高效强化学习

8849 AI技术研报

苹果出手！改进GRPO，让dLLM也能高效强化学习

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

9983 AI技术研报

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

7690 AI技术研报

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

9695 AI技术研报

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

8847 AI技术研报

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

9195 AI技术研报

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

上一页当前第16页,共37页下一页

沪ICP备2023015588号