AI资讯新闻榜单内容搜索-强化学习
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
清空
确定
首页
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI需求对接
搜索
AI-TNT
搜索: 强化学习
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
7073
AI技术研报
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
7221
AI技术研报
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
7366
AI技术研报
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
7843
AI资讯
如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新
如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新
7944
AI技术研报
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
6136
AI技术研报
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
5547
AI技术研报
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
9003
AI资讯
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
6520
AI技术研报
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
6941
AI技术研报
上一页
当前第8页,共22页
下一页
沪ICP备2023015588号