AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
6360 AI技术研报
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
6818 AI资讯
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
5650 AI技术研报
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
6031 AI技术研报
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
6503 AI资讯
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds

对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
6381 AI资讯
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
7165 AI技术研报
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

AI将受困于人类数据

AI将受困于人类数据
8089 AI资讯
AI将受困于人类数据

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
5831 AI技术研报
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
6441 AI技术研报
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
上一页 当前第1页,共21页 下一页
沪ICP备2023015588号