AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据
8122 AI技术研报
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
6987 AI技术研报
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
7901 AI技术研报
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
7949 AI技术研报
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」
7016 AI技术研报
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路
4828 AI资讯
一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁
8062 AI技术研报
更长思维并不等于更强推理性能,强化学习可以很简洁

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
3943 AI技术研报
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
6668 AI技术研报
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测
4803 AI技术研报
UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测
上一页 当前第10页,共22页 下一页
沪ICP备2023015588号