摘要
本发明公开了一种基于多语种多模态表征学习的跨语种文本图像检索方法,包括:1获取英文文本图像及其对应的图像描述并构成多模态数据集合;2构建用于生成多语种文本图像的图像合成模型;3合成多语种的自然场景文本图像;4构建用于多语种自然场景文本图像表征学习的神经网络;5对网络执行预训练任务:以文本图像中文本区域的视觉信息为线索,跨语种地恢复描述句子中被掩码的文本;6对网络进行跨语种的描述语句与场景文本图像之间的匹配训练,得到训练后的多语种多模态表征模型;7利用表征模型对任意输入的多语种文本图像进行表征,进行文本图像的跨语种跨模态检索。本发明能为自然场景文本图像的跨语种跨模态检索提供支撑。
技术关键词
图像检索方法
多模态
语句
图像检索模型
信息编码
笔画
自然场景
场景文本图像
文字区域图像
线性分类器
识别模块
真实感
样本
采样器
视觉
字符识别
系统为您推荐了相关专利信息
射频指纹识别方法
多模态
蒸馏
物联网设备
设备认证
关键部位识别方法
知识图谱推理
视觉特征
融合特征
构建知识图谱