摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于图像序列的空间推理方法、装置、设备及介质,包括:获取图像序列及图像序列中每帧图像对应的相机位姿信息,基于图像序列和相机位姿信息,结合视觉语言特征与空间特征筛选关键帧及关键帧对应的相机位姿信息,基于关键帧、相机位姿信息和空间推理请求构建多模态提示,利用预训练的多模态语言模型生成空间推理结果。本发明通过结合视觉语言特征与空间特征筛选信息量更丰富、空间覆盖更广的关键帧,并基于关键帧与相机位姿信息构建多模态提示,使得多模态语言模型能够高效理解场景中的空间关系,无需依赖复杂的三维数据建模即可实现灵活、低成本的空间推理。
技术关键词
推理方法
相机
多模态
序列
度量
视场角
推理装置
关键帧内容
图像采集方式
视觉
生成自然语言
计算机设备
生成图文
场景
人工智能技术
医疗健康
数据采集模块