摘要
本发明公开了一种面向多语种自然场景文本图像的结构化信息抽取方法,其步骤包括:1构建面向多语种自然场景文本图像信息抽取的数据集;2构建面向自然场景文本图像的多语种多模态信息抽取网络;3在多语种文本信息抽取数据集上,对多模态信息抽取网络的文本分支进行预训练;4训练面向自然场景文本图像的多语种多模态信息抽取网络;5利用训练好的多模态信息抽取网络对任意输入的多语种文本图像进行信息抽取,得到文本图像内视觉与语言信息的结构化知识表示。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行信息抽取,深度理解文本图像内不同语种不同模态的信息,输出文本图像的结构化知识表示。
技术关键词
结构化信息抽取方法
文本
自然场景
视觉特征编码
信息编码
图像
信息抽取模型
分支
多模态信息融合
语义特征
解码模块
抽取器
多头注意力机制
更新网络参数
识别模块