AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
4333 AI技术研报
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
5915 AI技术研报
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
5146 AI技术研报
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
6421 AI技术研报
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
6297 AI技术研报
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
5915 AI技术研报
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
5839 AI技术研报
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
6928 AI技术研报
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
7227 AI技术研报
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
6253 AI技术研报
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
上一页 当前第4页,共22页 下一页
沪ICP备2023015588号