摘要
本发明提出了一种基于视觉提示的多媒体检索方法及系统,涉及多媒体检索技术领域,具体方案包括:获取多媒体检索数据集和待检索的多媒体样本;利用训练后的视觉提示多媒体编码模型,为多媒体检索数据集中的每个多媒体样本及待检索的多媒体样本,生成哈希码;基于哈希码,计算两个多媒体样本之间的汉明距离,利用汉明距离进行相似性检索;其中,所述视觉提示多媒体编码模型,在利用Transformer编码器对输入的多媒体样本进行哈希编码前,将学习得到的视觉提示作为一种特定任务信息嵌入到多媒体样本中,增强模型对多媒体数据的语义理解;本发明通过引入视觉提示,节省大量的资源,显著提升多媒体检索的准确性和效率。
技术关键词
多媒体检索方法
视觉
样本
生成哈希
计算机可读指令
汉明距离
编码器模块
多媒体检索系统
多媒体检索技术
非暂时性
编码模块
数据
语义
线性
处理器
令牌
系统为您推荐了相关专利信息
机床进给轴
状态检测方法
生成神经网络
二维图像数据
注意力机制
工业场地土壤
浓度预测方法
非线性结构
非线性特征
样本
大气压等离子体
修复设备
复合材料缺陷
修复方法
机器学习模型