一种基于多模态融合提示的大语言模型空间理解能力增强方法

正文

推荐专利

申请号：CN202510735369

申请日期：2025-06-04

公开号：CN120633853A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于多模态融合提示的大语言模型空间理解能力增强方法，包括：构建数据集，数据集来自物理实体；基于目标检测算法对数据集中的每张图像进行处理，获得第一图像；基于深度语义分割网络对数据集中的每张图像进行像素级解析，获得第二图像；基于跨模态注意力机制对数据集中的每张图像与文本建立关联映射，获得第三图像；将第一图像、第二图像和第三图像按照对应的权重进行融合，获得最终图像；构建提示模版，将原始文本数据与提示模板结合输入到大语言模型中，获得最终文本；将最终图像与最终文本相结合输入到多模态大语言模型中，最终获得优化后的图文对数据。本发明通过图文双模态提示大大提升了多模态大模型的空间理解能力。

技术关键词

深度语义分割网络文本注意力机制图像处理模块大语言模型图文热力图多模态数据获取模块处理单元标识视觉模版计算机装置算法计算机程序产品像素

系统为您推荐了相关专利信息

一种面向大语言模型的动态广告投放方法及系统

动态广告投放方法大语言模型自然语言强化学习策略动态上下文

区域服务质量分析方法、装置、设备及存储介质

服务质量分析方法业务量预测文本情感分析密度多传感器融合算法

语音识别方法、装置、设备、存储介质和程序产品

编码特征语音识别模型文本样本语音识别方法

一种基于Transformer自适应对抗图神经网络的交通流预测方法

交通流预测方法注意力机制随机梯度下降交通流预测系统数据

基于智能体的脑血管病健康监测方法

健康监测方法高风险健康状态数据脑血容量脱敏数据

一种基于多模态融合提示的大语言模型空间理解能力增强方法

站点导航

APP 下载