AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
8368 AI技术研报
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
8120 AI技术研报
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!
8036 AI技术研报
奖励是假的,能让Qwen提升25%性能却是真的!

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
4749 AI技术研报
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
4719 AI技术研报
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
5630 AI技术研报
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
5810 AI技术研报
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!
8051 AI技术研报
One RL to See Them All?一个强化学习统一视觉-语言任务!

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
5811 AI技术研报
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了
5895 AI技术研报
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
上一页 当前第5页,共22页 下一页
沪ICP备2023015588号