AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
7851 AI技术研报
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25
8233 AI技术研报
动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配

「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
7666 AI技术研报
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配

小米最新大模型成果!罗福莉现身了

小米最新大模型成果!罗福莉现身了
8473 AI技术研报
小米最新大模型成果!罗福莉现身了

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
8091 AI技术研报
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式

AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
7964 AI技术研报
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
6718 AI技术研报
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
8304 AI技术研报
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
7784 AI技术研报
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
9411 AI技术研报
刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
上一页 当前第8页,共37页 下一页
沪ICP备2023015588号