一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质
申请号:CN202410738486
申请日期:2024-06-07
公开号:CN118736608A
公开日期:2024-10-01
类型:发明专利
摘要
本发明提供了一种结合视觉语言模型和代码生成模型的单据信息提取方法、系统、设备及存储介质,包括:获取待处理的单据图像以及对应的问题文本内容;将问题文本内容依次输入至预处理模块和代码生成模块中生成代码,其中预处理模块对问题文本内容进行意图识别并翻译为英文,代码生成模块采用代码大模型,连接多个API接口,代码生成模块将根据问题调用和组合各个API组件生成代码,其中核心API为检测定位组件和文字识别组件;检测定位组件能够检测并定位单据图像上与问题相关的位置;文字识别组件对检测定位结果进行文字识别;输入单据图像,执行代码生成模块(代码大模型)生成的代码,最终得到问题所询问的单据信息结果。本发明为单据图像的文字信息提取过程提供了图像阅读理解和推理能力、使用户能直接进行视觉查询。简化传统OCR流程,使用更方便准确。
技术关键词
信息提取方法 单据 文本 定位组件 意图识别 生成代码 图像特征提取 机器翻译模型 特征提取模块 ResNet网络 sigmoid函数 信息提取系统 区域特征提取 上采样 生成提示词 BERT模型 像素点 表达式
系统为您推荐了相关专利信息
1
一种基于大型语言模型的多模态讽刺检测方法
预训练语言模型 文本 多模态 观点 术语
2
一种多模态Action Transformer模型及其智能化任务执行方法
交叉注意力机制 编码器 页面 子模块 前馈神经网络
3
利用大语言模型控制软件或硬件的系统与方法
大语言模型 中间件 指令 文本 输出日志文件
4
图像生成方法、模型生成方法、装置、设备及介质
立体模型 对象 模型生成方法 图像生成方法 文本
5
一种数字人交互方法、装置及电子设备
人交互方法 关键词 语义理解模型 交互内容 意图
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号