AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

6279 AI技术研报

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

10155 AI技术研报

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

6944 AI技术研报

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

清华、快手提出AttnRL：让大模型用「注意力」探索

清华、快手提出AttnRL：让大模型用「注意力」探索

7803 AI技术研报

清华、快手提出AttnRL：让大模型用「注意力」探索

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

8093 AI技术研报

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

6519 AI技术研报

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

7152 AI技术研报

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

9412 AI技术研报

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」

Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」

7991 AI资讯

Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」

多轮Agent训练遇到级联失效？熵控制强化学习来破局

多轮Agent训练遇到级联失效？熵控制强化学习来破局

6819 AI技术研报

多轮Agent训练遇到级联失效？熵控制强化学习来破局

上一页当前第7页,共37页下一页

沪ICP备2023015588号