摘要
本申请涉及图像处理技术领域,提供一种基于多模态大模型的发票识别方法、装置及设备,本申请实施例提供的基于多模态大模型的发票识别方法,通过多模态大模型生成待处理发票图像的全局语义描述,以及,利用多模态大模型对待处理发票图像执行区域实例分割,输出每个票据对应的独立票据子图像,并根据全局语义描述和预设结构化模板构建多模态引导指令,然后将独立票据子图像及对应引导指令输入多模态大模型,获得发票信息结构化数据,发票信息结构化数据可直接满足预设要求。且通过光学字符识别模型提取的刚性文本特征,对发票信息结构化数据进行矫正,在保留多模态大模型全局推理优势的同时,进一步提高发票信息结构化数据的准确性。
技术关键词
发票识别方法
多模态
票据
字形特征
置信度阈值
文本
图像
发票识别装置
光学字符识别
实例分割
语义
数据
生成发票
矫正
大语言模型
指令
通信接口
关系
系统为您推荐了相关专利信息
智能家电
功率传感器
电压传感器
历史维修记录
电流传感器
活体检测方法
氧气传感器
车辆控制模块
湿度传感器
闭锁
数据处理方法
拓扑特征
多光谱
信息熵
权重特征融合