AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026
8705 AI技术研报
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式
10159 AI技术研报
人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!
6266 AI技术研报
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习
6908 AI技术研报
强化学习远不是最优,CMU刚刚提出最大似然强化学习

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」
9005 AI资讯
突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
9874 AI技术研报
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
8817 AI技术研报
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源
10370 AI技术研报
世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」
8693 AI技术研报
2026年,大模型训练的下半场属于「强化学习云」

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化
7421 AI技术研报
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
上一页 当前第2页,共37页 下一页
沪ICP备2023015588号