AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
8164 AI技术研报
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
10002 AI技术研报
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
9516 AI技术研报
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

奖励是假的,能让Qwen提升25%性能却是真的!

奖励是假的,能让Qwen提升25%性能却是真的!
9403 AI技术研报
奖励是假的,能让Qwen提升25%性能却是真的!

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
6396 AI技术研报
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
5468 AI技术研报
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
7407 AI技术研报
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
7366 AI技术研报
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!
9768 AI技术研报
One RL to See Them All?一个强化学习统一视觉-语言任务!

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
7904 AI技术研报
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
上一页 当前第20页,共37页 下一页
沪ICP备2023015588号