AI资讯新闻榜单内容搜索-视觉

AITNT
未登录
搜索: 视觉

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型
8299 AI资讯
Jina-VLM:可在笔记本上跑的多语言视觉小模型

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
9919 AI技术研报
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

准确率腰斩!大模型视觉能力一出日常生活就「失灵」

准确率腰斩!大模型视觉能力一出日常生活就「失灵」
9271 AI技术研报
准确率腰斩!大模型视觉能力一出日常生活就「失灵」

视觉推理模型Top1易主了,智谱GLM-4.6V开源

视觉推理模型Top1易主了,智谱GLM-4.6V开源
8726 AI资讯
视觉推理模型Top1易主了,智谱GLM-4.6V开源

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
7701 AI资讯
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
8688 AI技术研报
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力

大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
8175 AI技术研报
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
9152 AI技术研报
超越π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架

无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题

无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
9271 AI技术研报
无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
8637 AI技术研报
架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
上一页 当前第9页,共71页 下一页
沪ICP备2023015588号