摘要
本发明属于图像检索领域,具体涉及一种基于多模态融合的互动式图像检索方法;包括:采用深度神经网络模型对文本、素描和图像进行编码,得到文本嵌入向量、素描嵌入向量和图像嵌入向量;融合文本嵌入向量和素描嵌入向量,得到融合嵌入向量;根据图像嵌入向量和融合嵌入向量构建奖励函数;构建包含奖励函数的强化学习模型并训练,当达到预设的训练次数时,完成模型训练;实时获取用户的素描以及用户对检索对象的文本描述,将素描和文本输入到训练好的强化学习模型中进行实时检索,模型反馈给用户检索到的图像;用户根据反馈图像进一步优化素描,直至检索到用户满意的目标图像;本发明可保证检索反馈的稳定性能,实现了更优质的检索体验。
技术关键词
多模态特征融合
图像嵌入
强化学习模型
深度神经网络模型
图像检索方法
检索对象
文本编码器
图像编码器
分支
误差
基础
数据
系统为您推荐了相关专利信息
深度神经网络模型
音频水印
脱敏数据
通信网络
水印检测
牙齿图像分割方法
融合注意力机制
多模态特征融合
编码特征
协同注意力
局部敏感哈希
云服务提供商
解密图像
图像检索方法
加密