AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

8705 AI技术研报

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

10159 AI技术研报

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

6266 AI技术研报

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

强化学习远不是最优，CMU刚刚提出最大似然强化学习

强化学习远不是最优，CMU刚刚提出最大似然强化学习

6908 AI技术研报

强化学习远不是最优，CMU刚刚提出最大似然强化学习

突发！姚顺雨后，清华95后庞天宇加入腾讯，任混元「主任研究员」

突发！姚顺雨后，清华95后庞天宇加入腾讯，任混元「主任研究员」

9005 AI资讯

突发！姚顺雨后，清华95后庞天宇加入腾讯，任混元「主任研究员」

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

9874 AI技术研报

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

8817 AI技术研报

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

世界模型+强化学习=具身智能性能翻倍！清华&加州伯克利最新开源

世界模型+强化学习=具身智能性能翻倍！清华&加州伯克利最新开源

10370 AI技术研报

世界模型+强化学习=具身智能性能翻倍！清华&加州伯克利最新开源

2026年，大模型训练的下半场属于「强化学习云」

2026年，大模型训练的下半场属于「强化学习云」

8693 AI技术研报

2026年，大模型训练的下半场属于「强化学习云」

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

7421 AI技术研报

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

上一页当前第2页,共37页下一页

沪ICP备2023015588号