AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质
7947 AI技术研报
四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

「Next-Token」范式改变!刚刚,强化学习预训练来了

「Next-Token」范式改变!刚刚,强化学习预训练来了
5177 AI技术研报
「Next-Token」范式改变!刚刚,强化学习预训练来了

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
6279 AI技术研报
OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
7205 AI资讯
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

强化学习之父:LLM主导只是暂时,扩展计算才是正解

强化学习之父:LLM主导只是暂时,扩展计算才是正解
8047 AI资讯
强化学习之父:LLM主导只是暂时,扩展计算才是正解

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成
6057 AI技术研报
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
6360 AI技术研报
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展
5445 AI技术研报
扩展强化学习:环境、奖励黑客、智能体、数据扩展

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
6519 AI技术研报
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
6282 AI技术研报
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
上一页 当前第3页,共22页 下一页
沪ICP备2023015588号