AI资讯新闻榜单内容搜索-训练

AITNT
未登录
搜索: 训练

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
8955 AI技术研报
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界
8254 AI资讯
o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销

大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销
7595 AI资讯
大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
7422 AI技术研报
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!

腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!
9082 AI资讯
腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!

从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
7825 AI技术研报
从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
8475 AI技术研报
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架
8214 AI技术研报
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

AI代码生成,上下文示例怎样写最有效?港科大最新

AI代码生成,上下文示例怎样写最有效?港科大最新
9511 AI技术研报
AI代码生成,上下文示例怎样写最有效?港科大最新

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
8357 AI技术研报
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
上一页 当前第152页,共436页 下一页
沪ICP备2023015588号