AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

9024 AI技术研报

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

7969 AI资讯

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

8363 AI技术研报

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

6773 AI技术研报

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

7294 AI资讯

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

7245 AI资讯

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

9297 AI技术研报

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

8031 AI技术研报

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

6859 AI技术研报

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

7643 AI技术研报

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

上一页当前第11页,共37页下一页

沪ICP备2023015588号