AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
6907 AI资讯
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
5770 AI技术研报
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
6122 AI技术研报
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
6623 AI资讯
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds

对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
6470 AI资讯
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
7232 AI技术研报
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

AI将受困于人类数据

AI将受困于人类数据
8116 AI资讯
AI将受困于人类数据

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
5860 AI技术研报
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
6477 AI技术研报
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds

对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
6546 AI资讯
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
上一页 当前第2页,共22页 下一页
沪ICP备2023015588号