一种面向多语种自然场景文本图像的结构化信息抽取方法

正文

推荐专利

申请号：CN202411631527

申请日期：2024-11-15

公开号：CN119516563B

公开日期：2025-07-01

类型：发明专利

摘要

本发明公开了一种面向多语种自然场景文本图像的结构化信息抽取方法，其步骤包括：1构建面向多语种自然场景文本图像信息抽取的数据集；2构建面向自然场景文本图像的多语种多模态信息抽取网络；3在多语种文本信息抽取数据集上，对多模态信息抽取网络的文本分支进行预训练；4训练面向自然场景文本图像的多语种多模态信息抽取网络；5利用训练好的多模态信息抽取网络对任意输入的多语种文本图像进行信息抽取，得到文本图像内视觉与语言信息的结构化知识表示。本发明可以在多语种的场景下，对输入的多语种自然场景文本图像进行信息抽取，深度理解文本图像内不同语种不同模态的信息，输出文本图像的结构化知识表示。

技术关键词

结构化信息抽取方法文本自然场景视觉特征编码信息编码图像信息抽取模型分支多模态信息融合语义特征解码模块抽取器多头注意力机制更新网络参数识别模块

一种面向多语种自然场景文本图像的结构化信息抽取方法

站点导航

APP 下载