摘要
本发明提供一种多模态检索方法及装置,涉及人工智能技术领域。所述方法包括:获取查询信息以及预设数据集;在文本空间中,基于查询信息与每个预设数据的匹配度,从预设数据集中确定多个第一候选数据;在多模态空间中,基于查询信息与每个预设数据在编码单元上的相似度,从预设数据集中确定多个第二候选数据;融合多个第一候选数据和多个第二候选数据,得到查询信息对应的查询结果。本发明将多模态数据映射至文本空间,利用文本进行检索,可提升多模态检索中文本处理能力,在多模态空间中利用数据在编码单元上的相似度进行搜索,可更好地理解不同模态的数据,进而可有效提升多模态检索的准确度。
技术关键词
数据
多模态检索方法
文本
编码向量
图像内物体
大语言模型
生成方式
序列
人工智能技术
检索装置
模板
编码器
语义
模块
系统为您推荐了相关专利信息
结构化查询语句
结构化查询语言
数据处理方法
文本
组织
数字孪生系统
粒子群算法优化
机械臂
吹干系统
零件表面清洗
智能安保管理系统
管理方法
贝叶斯网络模型
风险
趋势预测模型
环境监测数据
深度学习模型
预测预警方法
多层注意力机制
多模型