AI资讯新闻榜单内容搜索-训练

AITNT
未登录
搜索: 训练

清华、快手提出AttnRL:让大模型用「注意力」探索

清华、快手提出AttnRL:让大模型用「注意力」探索
8112 AI技术研报
清华、快手提出AttnRL:让大模型用「注意力」探索

AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!
8447 AI技术研报
AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文
9134 AI技术研报
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
6353 AI技术研报
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略
8061 AI技术研报
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
6843 AI技术研报
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」
7845 AI技术研报
突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
7448 AI技术研报
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速

微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
7066 AI技术研报
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速

LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统

LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
8769 AI技术研报
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
上一页 当前第100页,共432页 下一页
沪ICP备2023015588号