AI资讯新闻榜单内容搜索-强化学习

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 强化学习

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

8601 AI技术研报

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

7265 AI技术研报

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

7297 AI技术研报

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

强化学习+大模型记忆：Mem-α，让智能体第一次学会“如何记忆”

强化学习+大模型记忆：Mem-α，让智能体第一次学会“如何记忆”

8517 AI技术研报

强化学习+大模型记忆：Mem-α，让智能体第一次学会“如何记忆”

强化学习教父重出江湖，生成式AI的时代要结束了？

强化学习教父重出江湖，生成式AI的时代要结束了？

8893 AI资讯

强化学习教父重出江湖，生成式AI的时代要结束了？

RLinf上新πRL：在线强化学习微调π0和π0.5

RLinf上新πRL：在线强化学习微调π0和π0.5

11016 AI技术研报

RLinf上新πRL：在线强化学习微调π0和π0.5

Prompt-R1：让Agent代替你和GPT多轮交互！

Prompt-R1：让Agent代替你和GPT多轮交互！

8379 AI技术研报

Prompt-R1：让Agent代替你和GPT多轮交互！

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

8227 AI技术研报

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

8563 AI技术研报

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

刚刚，Kimi开源新架构，开始押注线性注意力

刚刚，Kimi开源新架构，开始押注线性注意力

7233 AI技术研报

刚刚，Kimi开源新架构，开始押注线性注意力

上一页当前第5页,共37页下一页

沪ICP备2023015588号