AI资讯新闻榜单内容搜索-视觉

AITNT
未登录
搜索: 视觉

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集
10142 AI技术研报
打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

超越Runway!Adobe发布新神器:P视频比P图还简单

超越Runway!Adobe发布新神器:P视频比P图还简单
8804 AI技术研报
超越Runway!Adobe发布新神器:P视频比P图还简单

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
7771 AI技术研报
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」
6681 AI技术研报
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
8788 AI技术研报
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式
7553 AI技术研报
轻量高效,即插即用:Video-RAG为长视频理解带来新范式

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
8253 AI技术研报
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代
7508 AI技术研报
文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
6699 AI技术研报
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
7302 AI技术研报
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
上一页 当前第14页,共71页 下一页
沪ICP备2023015588号