AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
9828 AI技术研报
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
8900 AI资讯
AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
8363 AI技术研报
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
7637 AI技术研报
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
7818 AI技术研报
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升
6921 AI技术研报
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
6565 AI技术研报
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!
8495 AI技术研报
美团王兴,又开源一款大模型!

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?
9041 AI技术研报
为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
8434 AI技术研报
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
上一页 当前第10页,共37页 下一页
沪ICP备2023015588号