AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

8164 AI技术研报

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 | Science子刊

10002 AI技术研报

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 | Science子刊

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

9516 AI技术研报

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

奖励是假的，能让Qwen提升25%性能却是真的！

奖励是假的，能让Qwen提升25%性能却是真的！

9403 AI技术研报

奖励是假的，能让Qwen提升25%性能却是真的！

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

6396 AI技术研报

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

一个省略号提示+强化学习搞定大模型“过度思考”，中科院自动化所新方法：从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”，中科院自动化所新方法：从强制推理到自主选择

5468 AI技术研报

一个省略号提示+强化学习搞定大模型“过度思考”，中科院自动化所新方法：从强制推理到自主选择

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

7407 AI技术研报

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

7366 AI技术研报

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

One RL to See Them All？一个强化学习统一视觉-语言任务！

One RL to See Them All？一个强化学习统一视觉-语言任务！

9768 AI技术研报

One RL to See Them All？一个强化学习统一视觉-语言任务！

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

7904 AI技术研报

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

上一页当前第20页,共37页下一页

沪ICP备2023015588号