摘要
本发明提供了一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质,包括:获取待处理的单据图像以及对应的问题文本内容;将问题文本内容依次输入至预处理模块和代码生成模块中生成代码,其中预处理模块对问题文本内容进行意图识别并翻译为英文,代码生成模块采用代码大模型,连接多个API接口,代码生成模块将根据问题调用和组合各个API组件生成代码,其中核心API为检测定位组件和文字识别组件;检测定位组件能够检测并定位单据图像上与问题相关的位置;文字识别组件对检测定位结果进行文字识别;输入单据图像,执行代码生成模块(代码大模型)生成的代码,最终得到问题所询问的单据信息结果。本发明为单据图像的文字信息提取过程提供了图像阅读理解和推理能力、使用户能直接进行视觉查询。简化传统OCR流程,使用更方便准确。
技术关键词
信息提取方法
单据
文本
定位组件
意图识别
生成代码
图像特征提取
机器翻译模型
特征提取模块
ResNet网络
sigmoid函数
信息提取系统
区域特征提取
上采样
生成提示词
BERT模型
像素点
表达式
系统为您推荐了相关专利信息
交叉注意力机制
编码器
页面
子模块
前馈神经网络