AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

8349 AI技术研报

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

6137 AI技术研报

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

7501 AI技术研报

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL，一夜击穿14B SOTA

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL，一夜击穿14B SOTA

6777 AI技术研报

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL，一夜击穿14B SOTA

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

7663 AI技术研报

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

7785 AI技术研报

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

7694 AI技术研报

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

6923 AI技术研报

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

7994 AI技术研报

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

8714 AI技术研报

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

上一页当前第19页,共37页下一页

沪ICP备2023015588号