基于多语种多模态表征学习的跨语种文本图像检索方法

AITNT
正文
推荐专利
基于多语种多模态表征学习的跨语种文本图像检索方法
申请号:CN202411631502
申请日期:2024-11-15
公开号:CN119513348B
公开日期:2025-04-22
类型:发明专利
摘要
本发明公开了一种基于多语种多模态表征学习的跨语种文本图像检索方法,包括:1获取英文文本图像及其对应的图像描述并构成多模态数据集合;2构建用于生成多语种文本图像的图像合成模型;3合成多语种的自然场景文本图像;4构建用于多语种自然场景文本图像表征学习的神经网络;5对网络执行预训练任务:以文本图像中文本区域的视觉信息为线索,跨语种地恢复描述句子中被掩码的文本;6对网络进行跨语种的描述语句与场景文本图像之间的匹配训练,得到训练后的多语种多模态表征模型;7利用表征模型对任意输入的多语种文本图像进行表征,进行文本图像的跨语种跨模态检索。本发明能为自然场景文本图像的跨语种跨模态检索提供支撑。
技术关键词
图像检索方法 多模态 语句 图像检索模型 信息编码 笔画 自然场景 场景文本图像 文字区域图像 线性分类器 识别模块 真实感 样本 采样器 视觉 字符识别
系统为您推荐了相关专利信息
1
一种基于多模态大模型知识蒸馏的射频指纹识别通用架构、方法及电子设备
射频指纹识别方法 多模态 蒸馏 物联网设备 设备认证
2
一种AI数字人表情与面部特征迁移方法与系统
动画 三维网格模型 编码器 多模态 表情迁移方法
3
一种复杂光照低压电表频感检测方法、系统、设备及介质
计算机可执行指令 电表 光照 迁移学习策略 低压
4
一种基于知识图谱推理的目标关键部位识别方法
关键部位识别方法 知识图谱推理 视觉特征 融合特征 构建知识图谱
5
基于动态查询编译缓存优化的数据库查询执行方法和装置
语句 抽象语法树 计划 数据库系统资源 标识符
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号