AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
7073 AI技术研报
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
7221 AI技术研报
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述

后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
7366 AI技术研报
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
7843 AI资讯
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新

如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新
7944 AI技术研报
如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
6136 AI技术研报
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
5547 AI技术研报
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
9003 AI资讯
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
6520 AI技术研报
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考

李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
6941 AI技术研报
李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
上一页 当前第8页,共22页 下一页
沪ICP备2023015588号