摘要
本发明公开了一种基于多模态协同表征的三维场景感知交互方法和系统,属于室内三维场景理解领域。获取三维场景点云数据、多视角深度图像数据和文本查询标注,从点云中检测物体实例,并获取物体实例的多视角投影;分别利用预训练编码器提取物体点云特征和图像特征,再分别投影至语言模型的嵌入特征空间;利用物体标识符连接物体点云嵌入特征和图像嵌入特征形成物体的多模态协同表征,从而在语言模型输入中表达三维场景信息,最终利用大语言模型的推理和通用对话能力实现通用的三维场景的感知和交互。本发明通过向大语言模型引入物体级别的多模态协同表征,实现了通用的三维场景感知和交互,在多个室内三维场景下游任务同时提高了性能。
技术关键词
嵌入特征
感知交互方法
多模态协同
图像嵌入
文本
标识符
多视角
物体检测器
室内三维场景
图像编码器
深度图像数据
点云特征提取方法
交互系统
系统为您推荐了相关专利信息
BERT模型
解析方法
强化学习算法
多模态
语义特征提取
干涉条纹图像
大语言模型
图像增强方法
训练样本图像
文本
纹理图像特征
缺陷检测方法
前景文本
特征提取器
微调器
人脸图像修复方法
图像修复模型
个性化特征
噪声图像
样本