AI资讯新闻榜单内容搜索-视觉

AITNT
未登录
搜索: 视觉

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
11060 AI技术研报
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
6460 AI技术研报
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化
8512 AI技术研报
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务
10986 AI技术研报
NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音
9408 AI技术研报
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3D场景

MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3D场景
8607 AI技术研报
MIT融合新旧视觉技术,破解救援机器人导航瓶颈,无需标定,数秒生成3D场景

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万
8586 AI资讯
英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型
8501 AI技术研报
北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型

Feed-Forward 3D综述:三维视觉如何「一步到位」

Feed-Forward 3D综述:三维视觉如何「一步到位」
6739 AI技术研报
Feed-Forward 3D综述:三维视觉如何「一步到位」

中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型

中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型
7519 AI技术研报
中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型
上一页 当前第12页,共71页 下一页
沪ICP备2023015588号