AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

只用512张H200!106B模型靠分布式RL杀出重围,全网开源

只用512张H200!106B模型靠分布式RL杀出重围,全网开源
8820 AI资讯
只用512张H200!106B模型靠分布式RL杀出重围,全网开源

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
5716 AI技术研报
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程
7336 AI资讯
对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
8959 AI技术研报
超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
8265 AI技术研报
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里
8388 AI资讯
Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL

Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL
10216 AI技术研报
Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源
9190 AI技术研报
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
6597 AI技术研报
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路

对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
9739 AI资讯
对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
上一页 当前第4页,共37页 下一页
沪ICP备2023015588号