AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程
10038 AI资讯
DeepSeek 推理模型预览版上线,解密 o1 推理过程

Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习

Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
6195 AI资讯
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
5233 AI技术研报
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
5331 AI技术研报
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
3009 AI技术研报
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

具身智能基础——强化学习

具身智能基础——强化学习
4388 AI技术研报
具身智能基础——强化学习

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
3845 AI技术研报
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索
3334 AI资讯
DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题
3768 AI技术研报
吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
7352 AI技术研报
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
上一页 当前第17页,共23页 下一页
沪ICP备2023015588号