AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

杨植麟翻身,还要靠OpenAI

杨植麟翻身,还要靠OpenAI
6195 AI资讯
杨植麟翻身,还要靠OpenAI

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题
6293 AI技术研报
受R1启发,微软亚洲发布Logic-RL,帮助LLM通过RL解决"骑士与骗子"逻辑谜题

3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?

3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
2673 AI资讯
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
6704 AI技术研报
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
5789 AI技术研报
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
5587 AI技术研报
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道

朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道
7580 AI资讯
朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
6863 AI技术研报
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
5783 AI技术研报
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
7822 AI技术研报
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
上一页 当前第13页,共22页 下一页
沪ICP备2023015588号