摘要
本发明提供一种图表解析方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:提取待解析的图表图像的视觉特征;将视觉特征输入至多模态大语言模型,以获取由多模态大语言模型输出的对图表图像的结构化解析结果。本发明通过在多模态大语言模型中设置一个由多个第一专家模块以及第一门控网络组成的第一任务适配模块,利用第一门控网络将图表解析任务动态分配给不同的第一专家模块协同处理,从而提升图表解析的全面性与准确性,且由于本发明基于低秩适配技术构建第一专家模块,训练时仅需更新少量参数,从而能够在提高图表解析能力的同时,有效保留多模态大语言模型在预训练阶段学习到的通用世界知识,避免了世界知识遗忘的问题。
技术关键词
大语言模型
解析方法
图表
视觉特征
模块
多模态
图像
非暂态计算机可读存储介质
网络
文本
特征提取单元
电子设备
处理器
人工智能技术
解析装置
计算机程序产品
参数
样本
标签
存储器
系统为您推荐了相关专利信息
数据检验方法
计算机程序产品
指令
三元组
模型训练模块
自动焊接系统
大型储罐
焊接机器人
顶棚
智能云平台