一种增强多图理解的多模态大模型结构

正文

推荐专利

一种增强多图理解的多模态大模型结构

申请号：CN202510901635

申请日期：2025-07-01

公开号：CN121033595A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种增强多图理解的多模态大模型结构，包括图片输入模块、图像特征提取模块、增强多图特征模块、特征映射模块、文本输入模块、分词模块、文本向量化模块、特征融合模块和大语言模型。增强多图特征模块通过挖掘关联图片相互间的关系，获取输入的多图的全局表达特征，增强模型的全局感知能力，获取不同图片中的环境、实体之间的相互关系。通过融合每张图的局部特征，减少信息丢失，增强模型对场景中的细节感知能力。

技术关键词

图像特征提取图片摘要文本输入模块融合特征视觉特征多模态编码模块分词标记特征大语言模型编码器方格阶段关系实体

系统为您推荐了相关专利信息

遥感图像分割方法及装置

注意力遥感图像分割方法分支解码器遥感图像分割技术

一种智能卷帘门式密集架及其控制系统

智能卷帘门式密集架锚点语义相关度 Word2Vec模型控制系统

一种基于新型同轴圆结构光的孔类内腔信息测头及应用

高分辨率相机圆结构光半透反射镜内腔准直透镜

基于多模态数据的滑坡隐患点土地沉降预测方法和装置

静态特征沉降预测方法上下文特征预测特征降雨型滑坡

基于扩散模型和多模态大语言模型的遥感影像超分辨率方法及产品

超分辨率遥感影像超分辨率方法大语言模型文本编码器样本

一种增强多图理解的多模态大模型结构

站点导航

APP 下载