摘要
本发明公开了一种基于多模态融合提示的大语言模型空间理解能力增强方法,包括:构建数据集,数据集来自物理实体;基于目标检测算法对数据集中的每张图像进行处理,获得第一图像;基于深度语义分割网络对数据集中的每张图像进行像素级解析,获得第二图像;基于跨模态注意力机制对数据集中的每张图像与文本建立关联映射,获得第三图像;将第一图像、第二图像和第三图像按照对应的权重进行融合,获得最终图像;构建提示模版,将原始文本数据与提示模板结合输入到大语言模型中,获得最终文本;将最终图像与最终文本相结合输入到多模态大语言模型中,最终获得优化后的图文对数据。本发明通过图文双模态提示大大提升了多模态大模型的空间理解能力。
技术关键词
深度语义分割网络
文本
注意力机制
图像处理模块
大语言模型
图文
热力图
多模态
数据获取模块
处理单元
标识
视觉
模版
计算机装置
算法
计算机程序产品
像素
系统为您推荐了相关专利信息
动态广告投放方法
大语言模型
自然语言
强化学习策略
动态上下文
服务质量分析方法
业务量预测
文本情感分析
密度
多传感器融合算法
交通流预测方法
注意力机制
随机梯度下降
交通流预测系统
数据
健康监测方法
高风险
健康状态数据
脑血容量
脱敏数据