一种基于多模态协同表征的三维场景感知交互方法和系统

正文

推荐专利

申请号：CN202410818080

申请日期：2024-06-24

公开号：CN118658154B

公开日期：2025-05-13

类型：发明专利

摘要

本发明公开了一种基于多模态协同表征的三维场景感知交互方法和系统，属于室内三维场景理解领域。获取三维场景点云数据、多视角深度图像数据和文本查询标注，从点云中检测物体实例，并获取物体实例的多视角投影；分别利用预训练编码器提取物体点云特征和图像特征，再分别投影至语言模型的嵌入特征空间；利用物体标识符连接物体点云嵌入特征和图像嵌入特征形成物体的多模态协同表征，从而在语言模型输入中表达三维场景信息，最终利用大语言模型的推理和通用对话能力实现通用的三维场景的感知和交互。本发明通过向大语言模型引入物体级别的多模态协同表征，实现了通用的三维场景感知和交互，在多个室内三维场景下游任务同时提高了性能。

技术关键词

嵌入特征感知交互方法多模态协同图像嵌入文本标识符多视角物体检测器室内三维场景图像编码器深度图像数据点云特征提取方法交互系统

系统为您推荐了相关专利信息

基于多模态语义融合的BOM解析方法、系统、设备及介质

BERT模型解析方法强化学习算法多模态语义特征提取

一种干涉条纹图像增强方法、装置、设备及存储介质

干涉条纹图像大语言模型图像增强方法训练样本图像文本

用于构建智能体的方法、装置、电子设备、介质

自然语言文本字段语句表单电子设备

基于搜索引擎与人类指导的多模态零样本缺陷检测方法

纹理图像特征缺陷检测方法前景文本特征提取器微调器

个性化的人脸图像修复方法、装置、设备、介质及程序产品

人脸图像修复方法图像修复模型个性化特征噪声图像样本

一种基于多模态协同表征的三维场景感知交互方法和系统

站点导航

APP 下载