摘要
本发明公开了一种增强多图理解的多模态大模型结构,包括图片输入模块、图像特征提取模块、增强多图特征模块、特征映射模块、文本输入模块、分词模块、文本向量化模块、特征融合模块和大语言模型。增强多图特征模块通过挖掘关联图片相互间的关系,获取输入的多图的全局表达特征,增强模型的全局感知能力,获取不同图片中的环境、实体之间的相互关系。通过融合每张图的局部特征,减少信息丢失,增强模型对场景中的细节感知能力。
技术关键词
图像特征提取
图片
摘要
文本
输入模块
融合特征
视觉特征
多模态
编码模块
分词
标记特征
大语言模型
编码器
方格
阶段
关系
实体
系统为您推荐了相关专利信息
注意力
遥感图像分割方法
分支
解码器
遥感图像分割技术
智能卷帘门式密集架
锚点
语义相关度
Word2Vec模型
控制系统
高分辨率相机
圆结构光
半透反射镜
内腔
准直透镜
静态特征
沉降预测方法
上下文特征
预测特征
降雨型滑坡
超分辨率遥感影像
超分辨率方法
大语言模型
文本编码器
样本