AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

8820 AI资讯

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

5716 AI技术研报

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程

对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程

7336 AI资讯

对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

8959 AI技术研报

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

8265 AI技术研报

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

8388 AI资讯

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

10216 AI技术研报

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

9190 AI技术研报

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

6597 AI技术研报

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

对话元理智能张帆：为什么「商业强化学习」，才是 AI To B 的新出路

对话元理智能张帆：为什么「商业强化学习」，才是 AI To B 的新出路

9739 AI资讯

对话元理智能张帆：为什么「商业强化学习」，才是 AI To B 的新出路

上一页当前第4页,共37页下一页

沪ICP备2023015588号