摘要
本发明公开了一种面向多语种文本图像的跨语种描述生成方法,其步骤包括:1获取多语种的文本图像并进行描述语句的标注;2构建面向多语种文本图像的跨语种描述生成网络;3构造多模态文本纠错任务的数据集,对描述生成网络中的部分模块进行预训练;4基于多语种文本图像描述生成数据集对网络的所有模块进行训练;5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行深度理解,输出多语种文本图像指定语种的描述语句。
技术关键词
信息编码
文本
生成方法
多模态
图像
视觉特征
序列
解码模块
识别标签
语句
字符分类器
更新网络参数
识别模块
语义
纠错
可读存储介质
系统为您推荐了相关专利信息
自动视觉定位
打印控制指令
面阵相机
打印方法
打印系统
双向驱动机构
机械夹持机构
磁悬浮机构
装配装置
圆柱电池