AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工

Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工
6342 AI资讯
Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工

啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新

啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新
9291 AI技术研报
啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述
4934 AI技术研报
深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
4819 AI技术研报
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
8016 AI技术研报
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek
7046 AI技术研报
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分

7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
4691 AI技术研报
7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分

图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI

图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI
8142 AI资讯
图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI

刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto
6041 AI资讯
刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法
5911 AI资讯
全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法
上一页 当前第12页,共22页 下一页
沪ICP备2023015588号