基于图像序列的空间推理方法、装置、设备及介质

正文

推荐专利

申请号：CN202510881713

申请日期：2025-06-27

公开号：CN120706573A

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种基于图像序列的空间推理方法、装置、设备及介质，包括：获取图像序列及图像序列中每帧图像对应的相机位姿信息，基于图像序列和相机位姿信息，结合视觉语言特征与空间特征筛选关键帧及关键帧对应的相机位姿信息，基于关键帧、相机位姿信息和空间推理请求构建多模态提示，利用预训练的多模态语言模型生成空间推理结果。本发明通过结合视觉语言特征与空间特征筛选信息量更丰富、空间覆盖更广的关键帧，并基于关键帧与相机位姿信息构建多模态提示，使得多模态语言模型能够高效理解场景中的空间关系，无需依赖复杂的三维数据建模即可实现灵活、低成本的空间推理。

技术关键词

推理方法相机多模态序列度量视场角推理装置关键帧内容图像采集方式视觉生成自然语言计算机设备生成图文场景人工智能技术医疗健康数据采集模块

基于图像序列的空间推理方法、装置、设备及介质

站点导航

APP 下载