一种面向多语种自然场景文本图像的结构化信息抽取方法

AITNT
正文
推荐专利
一种面向多语种自然场景文本图像的结构化信息抽取方法
申请号:CN202411631527
申请日期:2024-11-15
公开号:CN119516563B
公开日期:2025-07-01
类型:发明专利
摘要
本发明公开了一种面向多语种自然场景文本图像的结构化信息抽取方法,其步骤包括:1构建面向多语种自然场景文本图像信息抽取的数据集;2构建面向自然场景文本图像的多语种多模态信息抽取网络;3在多语种文本信息抽取数据集上,对多模态信息抽取网络的文本分支进行预训练;4训练面向自然场景文本图像的多语种多模态信息抽取网络;5利用训练好的多模态信息抽取网络对任意输入的多语种文本图像进行信息抽取,得到文本图像内视觉与语言信息的结构化知识表示。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行信息抽取,深度理解文本图像内不同语种不同模态的信息,输出文本图像的结构化知识表示。
技术关键词
结构化信息抽取方法 文本 自然场景 视觉特征编码 信息编码 图像 信息抽取模型 分支 多模态信息融合 语义特征 解码模块 抽取器 多头注意力机制 更新网络参数 识别模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号