摘要
一种基于多模态大模型的电力图文交互方法、系统及相关设备,涉及人工智能技术领域,电力图文交互方法包括收集电力图片与通用领域图片,对预先建立的电力视觉编码器进行训练;构建多模态大型语言模型,并通过训练完成的电力视觉编码器修改多模态大型语言模型自带的通用视觉编码器,得到电力图文大模型;构建电力图文多任务标注数据集,并对得到的电力图文大模型进行微调;使用微调之后的电力图文大模型,搭建服务,对输入的图片及问题进行回答。本发明在多模态大模型中引入专业领域的视觉编码器,将电力视觉编码器的输出特征送入一个新的视觉适配器,与通用视觉适配器特征对齐、融合后,送入解码器,提升了多模态大模型对专业领域图像的分析能力。
技术关键词
图文
电力
多模态
交互方法
变换器模块
图片
分辨率
交互系统
输出特征
解码器
适配器
标记
多任务
视觉
搭建模块
图像重建方法
数据
系统为您推荐了相关专利信息
设备故障预测方法
多模态特征融合
时序特征
敏感性特征
注意力机制
交互系统
多模态
微动特征
多尺度特征提取
交互内容
虚拟教学系统
教学场景
数据处理模块
数据采集模块
注意力