AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

7696 AI技术研报

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

8010 AI技术研报

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

2025上半年，AI Agent领域有什么变化和机会？| 峰瑞研究所

2025上半年，AI Agent领域有什么变化和机会？| 峰瑞研究所

9016 AI资讯

2025上半年，AI Agent领域有什么变化和机会？| 峰瑞研究所

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

7394 AI资讯

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

8857 AI技术研报

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

7775 AI技术研报

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开

伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开

8186 AI技术研报

伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

7506 AI技术研报

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

8370 AI技术研报

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

8700 AI技术研报

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

上一页当前第15页,共37页下一页

沪ICP备2023015588号