一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202410738486

申请日期：2024-06-07

公开号：CN118736608A

公开日期：2024-10-01

类型：发明专利

摘要

本发明提供了一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质，包括：获取待处理的单据图像以及对应的问题文本内容；将问题文本内容依次输入至预处理模块和代码生成模块中生成代码，其中预处理模块对问题文本内容进行意图识别并翻译为英文，代码生成模块采用代码大模型，连接多个API接口，代码生成模块将根据问题调用和组合各个API组件生成代码，其中核心API为检测定位组件和文字识别组件；检测定位组件能够检测并定位单据图像上与问题相关的位置；文字识别组件对检测定位结果进行文字识别；输入单据图像，执行代码生成模块(代码大模型)生成的代码，最终得到问题所询问的单据信息结果。本发明为单据图像的文字信息提取过程提供了图像阅读理解和推理能力、使用户能直接进行视觉查询。简化传统OCR流程，使用更方便准确。

技术关键词

信息提取方法单据文本定位组件意图识别生成代码图像特征提取机器翻译模型特征提取模块 ResNet网络 sigmoid函数信息提取系统区域特征提取上采样生成提示词 BERT模型像素点表达式

系统为您推荐了相关专利信息

一种基于大型语言模型的多模态讽刺检测方法

预训练语言模型文本多模态观点术语

一种多模态Action Transformer模型及其智能化任务执行方法

交叉注意力机制编码器页面子模块前馈神经网络

利用大语言模型控制软件或硬件的系统与方法

大语言模型中间件指令文本输出日志文件

图像生成方法、模型生成方法、装置、设备及介质

立体模型对象模型生成方法图像生成方法文本

一种数字人交互方法、装置及电子设备

人交互方法关键词语义理解模型交互内容意图

一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质

站点导航

APP 下载