AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手
11573 AI资讯
开源编程模型王座易主了,谁能想到新SOTA是快手

任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
9043 AI技术研报
任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

Qwen要做机器人了:林俊旸官宣成立具身智能团队

Qwen要做机器人了:林俊旸官宣成立具身智能团队
9197 AI资讯
Qwen要做机器人了:林俊旸官宣成立具身智能团队

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
6878 AI技术研报
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」
9162 AI技术研报
从「知题」到「知人」:UserRL让智能体学会「以人为本」

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍
10301 AI技术研报
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒
8573 AI技术研报
1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述
7566 AI技术研报
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
7883 AI技术研报
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

强化学习之父给LLM判死刑!站队LeCun:我们全搞错了

强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
8745 AI资讯
强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
上一页 当前第9页,共37页 下一页
沪ICP备2023015588号