AI资讯新闻榜单内容搜索-视觉

未登录

Appfigure：用户2024年为AI付费达14亿美元，教育是关键领域之一

AITNT-国内领先的一站式人工智能新闻资讯网站

搜索: 视觉

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

11060 AI技术研报

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

6460 AI技术研报

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

8512 AI技术研报

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

10986 AI技术研报

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

9408 AI技术研报

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

8607 AI技术研报

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

8586 AI资讯

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

8501 AI技术研报

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

Feed-Forward 3D综述：三维视觉如何「一步到位」

Feed-Forward 3D综述：三维视觉如何「一步到位」

6739 AI技术研报

Feed-Forward 3D综述：三维视觉如何「一步到位」

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

7519 AI技术研报

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

上一页当前第12页,共71页下一页

沪ICP备2023015588号