AI资讯新闻榜单内容搜索-强化学习

AITNT
搜索: 强化学习

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
8763 AI技术研报
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026
8414 AI技术研报
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式
9915 AI技术研报
人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!
6020 AI技术研报
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习
6718 AI技术研报
强化学习远不是最优,CMU刚刚提出最大似然强化学习

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」
8850 AI资讯
突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
9752 AI技术研报
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
8684 AI技术研报
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源
10235 AI技术研报
世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」
8577 AI技术研报
2026年,大模型训练的下半场属于「强化学习云」
上一页 当前第1页,共36页 下一页
沪ICP备2023015588号