AI资讯新闻榜单内容搜索-强化学习
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
首页
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI需求对接
搜索
AI-TNT
搜索: 强化学习
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
4333
AI技术研报
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
5915
AI技术研报
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
5146
AI技术研报
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
6421
AI技术研报
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
6297
AI技术研报
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
5915
AI技术研报
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
5839
AI技术研报
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
6928
AI技术研报
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
7227
AI技术研报
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
6253
AI技术研报
上一页
当前第4页,共22页
下一页
沪ICP备2023015588号