AI资讯新闻榜单内容搜索-训练

AITNT
未登录
搜索: 训练

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路
6816 AI资讯
一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
9164 AI技术研报
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁
8842 AI技术研报
更长思维并不等于更强推理性能,强化学习可以很简洁

推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕
7346 AI技术研报
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
5943 AI技术研报
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布
5449 AI技术研报
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源
11244 AI资讯
最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型
8901 AI技术研报
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
6020 AI技术研报
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得

扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得
8885 AI技术研报
扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得
上一页 当前第245页,共439页 下一页
沪ICP备2023015588号