AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

7923 AI技术研报

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

8236 AI资讯

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

7959 AI技术研报

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

7661 AI技术研报

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

月之暗面「调教」出最强Agent，在「人类最后一场考试」拿下最新 SOTA

月之暗面「调教」出最强Agent，在「人类最后一场考试」拿下最新 SOTA

8638 AI资讯

月之暗面「调教」出最强Agent，在「人类最后一场考试」拿下最新 SOTA

对谈斯坦福 Biomni 作者黄柯鑫：AI Scientist 领域将出现 Cursor 级别的机会｜Best Minds

对谈斯坦福 Biomni 作者黄柯鑫：AI Scientist 领域将出现 Cursor 级别的机会｜Best Minds

8630 AI资讯

对谈斯坦福 Biomni 作者黄柯鑫：AI Scientist 领域将出现 Cursor 级别的机会｜Best Minds

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

8886 AI技术研报

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

AI将受困于人类数据

AI将受困于人类数据

9700 AI资讯

AI将受困于人类数据

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

7508 AI技术研报

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

8541 AI技术研报

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

上一页当前第17页,共37页下一页

沪ICP备2023015588号