一种基于多模态融合提示的大语言模型空间理解能力增强方法

AITNT
正文
推荐专利
一种基于多模态融合提示的大语言模型空间理解能力增强方法
申请号:CN202510735369
申请日期:2025-06-04
公开号:CN120633853A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于多模态融合提示的大语言模型空间理解能力增强方法,包括:构建数据集,数据集来自物理实体;基于目标检测算法对数据集中的每张图像进行处理,获得第一图像;基于深度语义分割网络对数据集中的每张图像进行像素级解析,获得第二图像;基于跨模态注意力机制对数据集中的每张图像与文本建立关联映射,获得第三图像;将第一图像、第二图像和第三图像按照对应的权重进行融合,获得最终图像;构建提示模版,将原始文本数据与提示模板结合输入到大语言模型中,获得最终文本;将最终图像与最终文本相结合输入到多模态大语言模型中,最终获得优化后的图文对数据。本发明通过图文双模态提示大大提升了多模态大模型的空间理解能力。
技术关键词
深度语义分割网络 文本 注意力机制 图像处理模块 大语言模型 图文 热力图 多模态 数据获取模块 处理单元 标识 视觉 模版 计算机装置 算法 计算机程序产品 像素
系统为您推荐了相关专利信息
1
一种面向大语言模型的动态广告投放方法及系统
动态广告投放方法 大语言模型 自然语言 强化学习策略 动态上下文
2
区域服务质量分析方法、装置、设备及存储介质
服务质量分析方法 业务量预测 文本情感分析 密度 多传感器融合算法
3
语音识别方法、装置、设备、存储介质和程序产品
编码特征 语音识别模型 文本 样本 语音识别方法
4
一种基于Transformer自适应对抗图神经网络的交通流预测方法
交通流预测方法 注意力机制 随机梯度下降 交通流预测系统 数据
5
基于智能体的脑血管病健康监测方法
健康监测方法 高风险 健康状态数据 脑血容量 脱敏数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号