AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
8349 AI技术研报
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
6137 AI技术研报
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
7501 AI技术研报
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
6777 AI技术研报
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
7663 AI技术研报
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
7785 AI技术研报
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
7694 AI技术研报
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
6923 AI技术研报
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
7994 AI技术研报
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
8714 AI技术研报
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
上一页 当前第19页,共37页 下一页
沪ICP备2023015588号