摘要
本发明公开了一种基于语义抽取的财务机器人发票要素识别方法,包括如下步骤:S1、获取原始发票图像,并进行图像预处理;S2、执行光学字符识别操作,提取发票文本信息;S3、输入语义位势模型;S4、根据预设的发票要素类别构建语义核向量集合;S5、基于语义核向量集合生成位势张量场;S6、在位势张量场中对字符单元执行迭代式语义偏移操作,形成语义聚类区域;S7、计算综合置信度评分,并输出发票要素识别结果;S8、对发票要素识别结果执行字段合法性验证,验证通过后提交至财务机器人系统,驱动相关业务流程。本发明融合语义位势建模与上下文编码技术,实现发票要素精准提取,具备结构清晰、鲁棒性强、适应性高的优点。
技术关键词
发票
识别方法
OCR识别模型
财务机器人系统
识别置信度
执行光学字符识别
语义向量
文本
字段
聚类
序列
解码模块
三元组
置信度阈值
文字区域图像