AI资讯新闻榜单内容搜索-强化学习
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
首页
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI需求对接
搜索
AI-TNT
搜索: 强化学习
杨植麟翻身,还要靠OpenAI
杨植麟翻身,还要靠OpenAI
6195
AI资讯
受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题
受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题
6293
AI技术研报
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
2673
AI资讯
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
6704
AI技术研报
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
5789
AI技术研报
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
5587
AI技术研报
朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道
朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道
7580
AI资讯
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
6863
AI技术研报
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
5783
AI技术研报
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
7822
AI技术研报
上一页
当前第13页,共22页
下一页
沪ICP备2023015588号