AI资讯新闻榜单内容搜索-训练

AITNT

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 训练

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

5243 AI资讯

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界

5251 AI技术研报

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

6552 AI技术研报

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

6160 AI资讯

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

大模型训练新突破！“不对称”训练让AI学会自我反思，推理零开销

大模型训练新突破！“不对称”训练让AI学会自我反思，推理零开销

5815 AI资讯

大模型训练新突破！“不对称”训练让AI学会自我反思，推理零开销

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

5411 AI技术研报

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

腾讯AI Lab|让AI左右互搏，无需人类数据也能自学成才！

腾讯AI Lab|让AI左右互搏，无需人类数据也能自学成才！

6758 AI资讯

腾讯AI Lab|让AI左右互搏，无需人类数据也能自学成才！

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

5802 AI技术研报

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

6056 AI技术研报

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

6225 AI技术研报

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

上一页当前第11页,共295页下一页

沪ICP备2023015588号