AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键
8755 AI技术研报
多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

LeCun新作:分层世界模型,数据驱动的人型机器人控制

LeCun新作:分层世界模型,数据驱动的人型机器人控制
9780 AI技术研报
LeCun新作:分层世界模型,数据驱动的人型机器人控制

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
9614 AI技术研报
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错
9588 AI技术研报
世界模型也扩散!训练出的智能体竟然不错

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
5396 AI资讯
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
3934 AI资讯
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

Science Robotics封面!DeepMind强化学习打造超一流机器人球员

Science Robotics封面!DeepMind强化学习打造超一流机器人球员
8387 AI资讯
Science Robotics封面!DeepMind强化学习打造超一流机器人球员

「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
4911 AI资讯
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%
8842 AI资讯
一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
5375 AI技术研报
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
上一页 当前第21页,共23页 下一页
沪ICP备2023015588号