AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

7851 AI技术研报

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

动作波动率降低70%！清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%！清华发布工业控制专用神经网络模型 | TIV'25

8233 AI技术研报

动作波动率降低70%！清华发布工业控制专用神经网络模型 | TIV'25

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

7666 AI技术研报

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

小米最新大模型成果！罗福莉现身了

小米最新大模型成果！罗福莉现身了

8473 AI技术研报

小米最新大模型成果！罗福莉现身了

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

8091 AI技术研报

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

7964 AI技术研报

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

6718 AI技术研报

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

8304 AI技术研报

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

7784 AI技术研报

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人

刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人

9411 AI技术研报

刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人

上一页当前第8页,共37页下一页

沪ICP备2023015588号