摘要
本申请公开了一种公文要素提取方法及相关装置、设备和存储介质,其中,公文要素提取方法包括:识别目标公文中各个文本行;基于文本行的多模态特征,预测得到文本行的第一类别;基于若干要素类别的表达规范对文本行的第一类别进行修正,得到文本行的第二类别;其中,第一类别、第二类别均为若干要素类别中一者;基于文本行所属第二类别的表达规范,确定文本行中属于第二类别的起始字符,并在目标公文中从起始字符开始遍历直至第二类别的结束字符,作为第二类别的要素内容;基于第二类别的要素内容,从目标公文提取结构化数据。上述方案,能够提升公文要素提取的准确性。
技术关键词
文本行
多模态特征
字符
布局特征
视觉特征
编码特征
数据
极值
程序
图像
处理器
指令
识别模块
可读存储介质
存储器
系统为您推荐了相关专利信息
文字特征
打印异常检测方法
图像采集模块
深度学习模型
输出模块
政务
数据分析系统
数据特征工程
数据分析方法
数据分析模块
智能排查方法
格式化文档
信号检测顺序
策略
大语言模型