摘要
本发明提供一种图表解析方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:提取待解析的图表图像的视觉特征;将视觉特征输入至多模态大语言模型,以获取由多模态大语言模型输出的对图表图像的结构化解析结果。本发明通过在多模态大语言模型中设置一个由多个第一专家模块以及第一门控网络组成的第一任务适配模块,利用第一门控网络将图表解析任务动态分配给不同的第一专家模块协同处理,从而提升图表解析的全面性与准确性,且由于本发明基于低秩适配技术构建第一专家模块,训练时仅需更新少量参数,从而能够在提高图表解析能力的同时,有效保留多模态大语言模型在预训练阶段学习到的通用世界知识,避免了世界知识遗忘的问题。
技术关键词
大语言模型
解析方法
图表
视觉特征
模块
多模态
图像
非暂态计算机可读存储介质
网络
文本
特征提取单元
电子设备
处理器
人工智能技术
解析装置
计算机程序产品
参数
样本
标签
存储器
系统为您推荐了相关专利信息
智能语音技术
汇报方法
会话初始协议
煤矿通讯系统
主控单元
交警手势识别方法
姿态特征
关键点
姿态估计
识别动态手势
意图识别方法
Softmax分类器
卷积网络模型
视频流
人机
机械臂
可视化交互平台
空间机器人动力学
重构
仿真方法