摘要
本申请涉及计算机视觉技术领域,特别涉及一种增强多模态大模型空间感知能力的方法及装置,其中,方法包括:利用多模态大模型提取目标图像和/或目标视频中至少一个物体的特征描述信息并生成初始结构化数据;对目标图像和/或目标视频进行网格化处理,并在网格中添加包含位置信息的视觉提示,结合视觉提示和初始结构化数据生成包含坐标信息和描述信息的结构化数据;基于结构化数据,定位至少一个物体对应的目标区域并优化空间坐标,以得到至少一个物体的实际物体坐标;将其映射回目标图像和/或目标视频的系统坐标,得到至少一个物体在空间中的实际定位结果。本申请可以显著提升多模态大模型的空间感知能力与动态场景适应能力,具有广泛应用场景。
技术关键词
特征描述信息
多模态
物体
视频
坐标
图像
数据
网格
语义地图
计算机视觉技术
动态场景
计算机程序产品
处理器
格式
定位模块
序列
可读存储介质
存储器
系统为您推荐了相关专利信息
瞳孔检测
跟踪方法
视觉传感器
特征识别方法
参数
轨迹预测方法
激光雷达数据
轨迹预测模型
轨迹参数
人工智能模型
智能运维管理方法
图像特征向量
生成优化建议
专家规则库
多模态数据融合
主蒸汽管道
计算方法
误差校正
数据融合算法
应力传感器