AI资讯新闻榜单内容搜索-强化学习
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
首页
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI需求对接
搜索
AI-TNT
搜索: 强化学习
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
6360
AI技术研报
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
6818
AI资讯
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
5650
AI技术研报
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
6031
AI技术研报
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
6503
AI资讯
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
6381
AI资讯
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
7165
AI技术研报
AI将受困于人类数据
AI将受困于人类数据
8089
AI资讯
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
5831
AI技术研报
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
6441
AI技术研报
上一页
当前第1页,共21页
下一页
沪ICP备2023015588号