增强多模态大模型空间感知能力的方法及装置

AITNT
正文
推荐专利
增强多模态大模型空间感知能力的方法及装置
申请号:CN202510792038
申请日期:2025-06-13
公开号:CN120339399B
公开日期:2025-08-26
类型:发明专利
摘要
本申请涉及计算机视觉技术领域,特别涉及一种增强多模态大模型空间感知能力的方法及装置,其中,方法包括:利用多模态大模型提取目标图像和/或目标视频中至少一个物体的特征描述信息并生成初始结构化数据;对目标图像和/或目标视频进行网格化处理,并在网格中添加包含位置信息的视觉提示,结合视觉提示和初始结构化数据生成包含坐标信息和描述信息的结构化数据;基于结构化数据,定位至少一个物体对应的目标区域并优化空间坐标,以得到至少一个物体的实际物体坐标;将其映射回目标图像和/或目标视频的系统坐标,得到至少一个物体在空间中的实际定位结果。本申请可以显著提升多模态大模型的空间感知能力与动态场景适应能力,具有广泛应用场景。
技术关键词
特征描述信息 多模态 物体 视频 坐标 图像 数据 网格 语义地图 计算机视觉技术 动态场景 计算机程序产品 处理器 格式 定位模块 序列 可读存储介质 存储器
系统为您推荐了相关专利信息
1
基于多模态多尺度融合的分类模型、分类方法以及装置
融合特征 分类方法 多尺度特征 多模态 医学
2
一种实时瞳孔检测与跟踪方法
瞳孔检测 跟踪方法 视觉传感器 特征识别方法 参数
3
一种基于雷达探测的目标轨迹预测方法、系统及计算设备
轨迹预测方法 激光雷达数据 轨迹预测模型 轨迹参数 人工智能模型
4
基于多模态AI的智能运维管理方法及系统
智能运维管理方法 图像特征向量 生成优化建议 专家规则库 多模态数据融合
5
一种超期服役主蒸汽管道的寿命评估与延寿计算方法
主蒸汽管道 计算方法 误差校正 数据融合算法 应力传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号