一种增强多图理解的多模态大模型结构

AITNT
正文
推荐专利
一种增强多图理解的多模态大模型结构
申请号:CN202510901635
申请日期:2025-07-01
公开号:CN121033595A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种增强多图理解的多模态大模型结构,包括图片输入模块、图像特征提取模块、增强多图特征模块、特征映射模块、文本输入模块、分词模块、文本向量化模块、特征融合模块和大语言模型。增强多图特征模块通过挖掘关联图片相互间的关系,获取输入的多图的全局表达特征,增强模型的全局感知能力,获取不同图片中的环境、实体之间的相互关系。通过融合每张图的局部特征,减少信息丢失,增强模型对场景中的细节感知能力。
技术关键词
图像特征提取 图片 摘要 文本 输入模块 融合特征 视觉特征 多模态 编码模块 分词 标记特征 大语言模型 编码器 方格 阶段 关系 实体
系统为您推荐了相关专利信息
1
遥感图像分割方法及装置
注意力 遥感图像分割方法 分支 解码器 遥感图像分割技术
2
一种智能卷帘门式密集架及其控制系统
智能卷帘门式密集架 锚点 语义相关度 Word2Vec模型 控制系统
3
一种基于新型同轴圆结构光的孔类内腔信息测头及应用
高分辨率相机 圆结构光 半透反射镜 内腔 准直透镜
4
基于多模态数据的滑坡隐患点土地沉降预测方法和装置
静态特征 沉降预测方法 上下文特征 预测特征 降雨型滑坡
5
基于扩散模型和多模态大语言模型的遥感影像超分辨率方法及产品
超分辨率遥感影像 超分辨率方法 大语言模型 文本编码器 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号