AI资讯新闻榜单内容搜索-强化学习

AITNT
未登录
搜索: 强化学习

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
6442 AI技术研报
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

Cursor 2.0 发布首个编程大模型Composer!代码生成250tokens/秒,强化学习+MoE架构

Cursor 2.0 发布首个编程大模型Composer!代码生成250tokens/秒,强化学习+MoE架构
8267 AI资讯
Cursor 2.0 发布首个编程大模型Composer!代码生成250tokens/秒,强化学习+MoE架构

AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

AlphaGo之父找到创造强化学习算法新方法:让AI自己设计
6638 AI技术研报
AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技

只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
9014 AI资讯
只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B
9883 AI技术研报
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!
9967 AI技术研报
DeepMind再登Nature:AI Agent造出了最强RL算法!

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
8252 AI技术研报
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
9601 AI技术研报
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
6343 AI技术研报
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本
5619 AI技术研报
不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本
上一页 当前第6页,共37页 下一页
沪ICP备2023015588号