AI资讯新闻榜单内容搜索-强化学习
站点导航
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
AI需求对接
APP 下载
iOS 下载
安卓下载
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
AITNT
未登录
退出
验证码登录
×
发送
登录即代表您已同意AITNT
用户协议
和
隐私政策
登录
搜索: 强化学习
周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性
周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性
9401
AI技术研报
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
7444
AI技术研报
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
7339
AI技术研报
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
7576
AI技术研报
苹果出手!改进GRPO,让dLLM也能高效强化学习
苹果出手!改进GRPO,让dLLM也能高效强化学习
8849
AI技术研报
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
9983
AI技术研报
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
7690
AI技术研报
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
9695
AI技术研报
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
8847
AI技术研报
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
9195
AI技术研报
上一页
当前第16页,共37页
下一页
沪ICP备2023015588号