AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
7226 AI技术研报
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
7172 AI技术研报
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
7812 AI资讯
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
7741 AI资讯
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!
7083 AI技术研报
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈
7020 AI资讯
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
8243 AI技术研报
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境
8036 AI技术研报
多模态后训练反常识:长思维链SFT和RL的协同困境

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
8493 AI技术研报
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

当提示词优化器学会进化,竟能胜过强化学习

当提示词优化器学会进化,竟能胜过强化学习
7587 AI技术研报
当提示词优化器学会进化,竟能胜过强化学习
上一页 当前第13页,共37页 下一页
沪ICP备2023015588号