增强多模态大模型空间感知能力的方法及装置

正文

推荐专利

申请号：CN202510792038

申请日期：2025-06-13

公开号：CN120339399B

公开日期：2025-08-26

类型：发明专利

摘要

本申请涉及计算机视觉技术领域，特别涉及一种增强多模态大模型空间感知能力的方法及装置，其中，方法包括：利用多模态大模型提取目标图像和/或目标视频中至少一个物体的特征描述信息并生成初始结构化数据；对目标图像和/或目标视频进行网格化处理，并在网格中添加包含位置信息的视觉提示，结合视觉提示和初始结构化数据生成包含坐标信息和描述信息的结构化数据；基于结构化数据，定位至少一个物体对应的目标区域并优化空间坐标，以得到至少一个物体的实际物体坐标；将其映射回目标图像和/或目标视频的系统坐标，得到至少一个物体在空间中的实际定位结果。本申请可以显著提升多模态大模型的空间感知能力与动态场景适应能力，具有广泛应用场景。

技术关键词

特征描述信息多模态物体视频坐标图像数据网格语义地图计算机视觉技术动态场景计算机程序产品处理器格式定位模块序列可读存储介质存储器

系统为您推荐了相关专利信息

基于多模态多尺度融合的分类模型、分类方法以及装置

融合特征分类方法多尺度特征多模态医学

一种实时瞳孔检测与跟踪方法

瞳孔检测跟踪方法视觉传感器特征识别方法参数

一种基于雷达探测的目标轨迹预测方法、系统及计算设备

轨迹预测方法激光雷达数据轨迹预测模型轨迹参数人工智能模型

基于多模态AI的智能运维管理方法及系统

智能运维管理方法图像特征向量生成优化建议专家规则库多模态数据融合

一种超期服役主蒸汽管道的寿命评估与延寿计算方法

主蒸汽管道计算方法误差校正数据融合算法应力传感器

增强多模态大模型空间感知能力的方法及装置

站点导航

APP 下载