AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds

对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
8355 AI资讯
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质
10826 AI技术研报
四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

「Next-Token」范式改变!刚刚,强化学习预训练来了

「Next-Token」范式改变!刚刚,强化学习预训练来了
6346 AI技术研报
「Next-Token」范式改变!刚刚,强化学习预训练来了

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
8019 AI技术研报
OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
8340 AI资讯
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

强化学习之父:LLM主导只是暂时,扩展计算才是正解

强化学习之父:LLM主导只是暂时,扩展计算才是正解
9389 AI资讯
强化学习之父:LLM主导只是暂时,扩展计算才是正解

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成
7436 AI技术研报
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
7958 AI技术研报
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展
6915 AI技术研报
扩展强化学习:环境、奖励黑客、智能体、数据扩展

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
7872 AI技术研报
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
上一页 当前第18页,共37页 下一页
沪ICP备2023015588号