AI资讯新闻榜单内容搜索-训练

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 训练

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

6816 AI资讯

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

9164 AI技术研报

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

更长思维并不等于更强推理性能，强化学习可以很简洁

更长思维并不等于更强推理性能，强化学习可以很简洁

8842 AI技术研报

更长思维并不等于更强推理性能，强化学习可以很简洁

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

7346 AI技术研报

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

5943 AI技术研报

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

5449 AI技术研报

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

11244 AI资讯

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

8901 AI技术研报

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

6020 AI技术研报

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

8885 AI技术研报

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

上一页当前第245页,共439页下一页

沪ICP备2023015588号