AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
3767 AI技术研报
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%
9116 AI技术研报
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
6014 AI技术研报
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
8137 AI技术研报
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
5900 AI技术研报
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
2549 AI技术研报
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba
9190 AI技术研报
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
6985 AI技术研报
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛

人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
7031 AI资讯
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
6834 AI技术研报
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
上一页 当前第11页,共22页 下一页
沪ICP备2023015588号