AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

7454 AI技术研报

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

7886 AI技术研报

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

4o-mini华人领队也离职了，这次不怪小扎

4o-mini华人领队也离职了，这次不怪小扎

7528 AI资讯

4o-mini华人领队也离职了，这次不怪小扎

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

7799 AI技术研报

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research智能体，超越多个闭源方案

7849 AI资讯

首个开源多模态Deep Research智能体，超越多个闭源方案

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

7401 AI资讯

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

8652 AI技术研报

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

7170 AI技术研报

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

8068 AI技术研报

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

7962 AI技术研报

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

上一页当前第12页,共37页下一页

沪ICP备2023015588号