一种基于多模态协同表征的三维场景感知交互方法和系统

AITNT
正文
推荐专利
一种基于多模态协同表征的三维场景感知交互方法和系统
申请号:CN202410818080
申请日期:2024-06-24
公开号:CN118658154B
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于多模态协同表征的三维场景感知交互方法和系统,属于室内三维场景理解领域。获取三维场景点云数据、多视角深度图像数据和文本查询标注,从点云中检测物体实例,并获取物体实例的多视角投影;分别利用预训练编码器提取物体点云特征和图像特征,再分别投影至语言模型的嵌入特征空间;利用物体标识符连接物体点云嵌入特征和图像嵌入特征形成物体的多模态协同表征,从而在语言模型输入中表达三维场景信息,最终利用大语言模型的推理和通用对话能力实现通用的三维场景的感知和交互。本发明通过向大语言模型引入物体级别的多模态协同表征,实现了通用的三维场景感知和交互,在多个室内三维场景下游任务同时提高了性能。
技术关键词
嵌入特征 感知交互方法 多模态协同 图像嵌入 文本 标识符 多视角 物体检测器 室内三维场景 图像编码器 深度图像数据 点云特征提取方法 交互系统
系统为您推荐了相关专利信息
1
基于多模态语义融合的BOM解析方法、系统、设备及介质
BERT模型 解析方法 强化学习算法 多模态 语义特征提取
2
一种干涉条纹图像增强方法、装置、设备及存储介质
干涉条纹图像 大语言模型 图像增强方法 训练样本图像 文本
3
用于构建智能体的方法、装置、电子设备、介质
自然语言文本 字段 语句 表单 电子设备
4
基于搜索引擎与人类指导的多模态零样本缺陷检测方法
纹理图像特征 缺陷检测方法 前景文本 特征提取器 微调器
5
个性化的人脸图像修复方法、装置、设备、介质及程序产品
人脸图像修复方法 图像修复模型 个性化特征 噪声图像 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号