AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
6217 AI技术研报
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
6115 AI资讯
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
7198 AI技术研报
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出
7250 AI技术研报
多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」

OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」
6671 AI技术研报
OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」

轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
3942 AI技术研报
轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

清华、智谱团队:探索 RLHF 的 scaling laws

清华、智谱团队:探索 RLHF 的 scaling laws
8682 AI技术研报
清华、智谱团队:探索 RLHF 的 scaling laws

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
7126 AI资讯
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作

对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作
6868 AI资讯
对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架
7295 AI技术研报
NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架
上一页 当前第15页,共23页 下一页
沪ICP备2023015588号