AI资讯新闻榜单内容搜索-强化学习
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
首页
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI需求对接
搜索
AI-TNT
搜索: 强化学习
多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键
多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键
8755
AI技术研报
LeCun新作:分层世界模型,数据驱动的人型机器人控制
LeCun新作:分层世界模型,数据驱动的人型机器人控制
9780
AI技术研报
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
9614
AI技术研报
世界模型也扩散!训练出的智能体竟然不错
世界模型也扩散!训练出的智能体竟然不错
9588
AI技术研报
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
5396
AI资讯
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
3934
AI资讯
Science Robotics封面!DeepMind强化学习打造超一流机器人球员
Science Robotics封面!DeepMind强化学习打造超一流机器人球员
8387
AI资讯
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
4911
AI资讯
一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%
一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%
8842
AI资讯
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
5375
AI技术研报
上一页
当前第21页,共23页
下一页
沪ICP备2023015588号