AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
9024 AI技术研报
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新
7969 AI资讯
断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
8363 AI技术研报
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
6773 AI技术研报
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻
7294 AI资讯
波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死
7245 AI资讯
Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系
9297 AI技术研报
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
8031 AI技术研报
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
6859 AI技术研报
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
7643 AI技术研报
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
上一页 当前第11页,共37页 下一页
沪ICP备2023015588号