基于多语种多模态表征学习的跨语种文本图像检索方法

正文

推荐专利

申请号：CN202411631502

申请日期：2024-11-15

公开号：CN119513348B

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于多语种多模态表征学习的跨语种文本图像检索方法，包括：1获取英文文本图像及其对应的图像描述并构成多模态数据集合；2构建用于生成多语种文本图像的图像合成模型；3合成多语种的自然场景文本图像；4构建用于多语种自然场景文本图像表征学习的神经网络；5对网络执行预训练任务：以文本图像中文本区域的视觉信息为线索，跨语种地恢复描述句子中被掩码的文本；6对网络进行跨语种的描述语句与场景文本图像之间的匹配训练，得到训练后的多语种多模态表征模型；7利用表征模型对任意输入的多语种文本图像进行表征，进行文本图像的跨语种跨模态检索。本发明能为自然场景文本图像的跨语种跨模态检索提供支撑。

技术关键词

图像检索方法多模态语句图像检索模型信息编码笔画自然场景场景文本图像文字区域图像线性分类器识别模块真实感样本采样器视觉字符识别

系统为您推荐了相关专利信息

一种基于多模态大模型知识蒸馏的射频指纹识别通用架构、方法及电子设备

射频指纹识别方法多模态蒸馏物联网设备设备认证

一种AI数字人表情与面部特征迁移方法与系统

动画三维网格模型编码器多模态表情迁移方法

一种复杂光照低压电表频感检测方法、系统、设备及介质

计算机可执行指令电表光照迁移学习策略低压

一种基于知识图谱推理的目标关键部位识别方法

关键部位识别方法知识图谱推理视觉特征融合特征构建知识图谱

基于动态查询编译缓存优化的数据库查询执行方法和装置

语句抽象语法树计划数据库系统资源标识符

基于多语种多模态表征学习的跨语种文本图像检索方法

站点导航

APP 下载