摘要
本公开提供了图像描述生成方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及深度学习、智能搜索、计算机视觉领域。具体实现方案为:基于输入图像的第一视觉特征进行检索,得到多模态检索结果;基于该多模态检索结果,得到多维语义特征;基于该第一视觉特征,从该多维语义特征中检索目标语义特征;基于该第一视觉特征和该目标语义特征,生成该输入图像的描述。
技术关键词
视觉特征
语义特征
检索图像
文本
多模态数据库
补丁
多模态特征
生成方法
多层感知机
样本
交叉注意力机制
模块
编码器
处理器
计算机程序产品
计算机视觉
系统为您推荐了相关专利信息
语义特征
地理信息匹配方法
地图界面
动态
滑动条控件
数据处理方法
智能调控方法
智能调控系统
加权融合算法
数据项
标签文本
文本分类方法
计算机设备
文本分类技术
文本分类装置
着陆方法
动态障碍物
视觉特征信息
双目摄像头
载人飞行器技术