AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器
8601 AI技术研报
Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
7265 AI技术研报
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
7297 AI技术研报
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”

强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”
8517 AI技术研报
强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”

强化学习教父重出江湖, 生成式AI的时代要结束了?

强化学习教父重出江湖, 生成式AI的时代要结束了?
8893 AI资讯
强化学习教父重出江湖, 生成式AI的时代要结束了?

RLinf上新πRL:在线强化学习微调π0和π0.5

RLinf上新πRL:在线强化学习微调π0和π0.5
11016 AI技术研报
RLinf上新πRL:在线强化学习微调π0和π0.5

Prompt-R1:让Agent代替你和GPT多轮交互!

Prompt-R1:让Agent代替你和GPT多轮交互!
8379 AI技术研报
Prompt-R1:让Agent代替你和GPT多轮交互!

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
8227 AI技术研报
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
8563 AI技术研报
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力
7233 AI技术研报
刚刚,Kimi开源新架构,开始押注线性注意力
上一页 当前第5页,共37页 下一页
沪ICP备2023015588号