摘要
本发明一种原文要素识别方法、系统、设备及存储介质。原文要素识别方法包括:将原文件输入到预先训练好的OCR模型中,获得图像信息和文本序列,OCR模型通过多种格式的文件数据训练得到;将图像信息和文本序列输入到预先训练好的KIE模型中,获得图像特征向量和文本特征向量;对图像特征向量和文本特征向量通过注意力加权克罗内克积进行融合,获得加权后的双特征向量矩阵;将加权后的双特征向量矩阵输入到图推理网络,获得节点特征;对节点特征按预先设定的字段类别进行分类。本发明通过图像特征向量和文本特征向量通过加权的克罗内克积进行融合而获得的节点特征提高了对原文要素识别的准确度。
技术关键词
文本特征向量
图像特征向量
节点特征
计算机可执行指令
识别方法
注意力
推理网络
序列
矩阵
处理器
可读存储介质
电子设备
格式
识别系统
模块
存储器
数据
系统为您推荐了相关专利信息
动态面部表情
文本编码器
音频编码器
图像编码器
适配器
数据训练方法
节点特征
多模态
特征学习模型
注意力机制
机器人
识别方法
数据传输延迟
数据采集周期
特征值
时空演变分析方法
空间句法
公共服务设施
计算机可执行指令
兴趣点POI数据