摘要
本发明公开了一种基于多模态大模型的图文信息抽取方法、系统及存储介质。抽取方法包括:S1:选取多模态大模型;S2:针对所述多模态大模型,进行OCR基础能力训练任务;S3:针对S2训练后的多模态大模型,进行多任务混合且同时进行的图文信息抽取训练任务,其中,训练数据从多任务中随机抽取;S4:将待处理的图像输入至S3训练后的多模态大模型,输出所述原始图像中的图文信息。通过对图文信息抽取领域进行专门的训练任务设计,极大地提升了多模态大模型的字符识别率、指令遵循能力,抑制了幻觉,取得了很好的端到端信息抽取效果,显著提升了工业生产中的图文信息抽取精度。
技术关键词
信息抽取方法
图文
多模态
表格
多任务
图像
指令
实体
信息抽取系统
字符识别率
文本行
图片
格式
列表
键值
字典
处理器
样本
可读存储介质
工业生产
系统为您推荐了相关专利信息
图像编码器
文本编码器
人脸特征
基因
图像生成器
异构传感器网络
设备控制指令
驱动执行机构
决策
地理位置信息