摘要
本申请提供了一种基于三维场景与语言数据联合的数据增强方法、装置及系统,方法包括:获取3D场景数据以及对应的文本标注数据;分别对场景数据和文本标注数据进行预处理,得到预处理后的3D‑语言联合数据;对预处理后的3D‑语言联合数据依次进行多模态数据增强,语义质量过滤处理,得到目标3D‑语言联合数据集。本申请通过整合3D点云数据、RGB‑D图像、问答对和密集描述等多种数据源,利用数据预处理、多模态数据增强和语义质量过滤,实现高质量大规模数据集的自动构建,能够在提高3D场景理解和视觉问答任务的数据质量的同时,增强数据的多样性和泛化能力,为3D视觉理解、机器人任务规划等应用提供有力支持。
技术关键词
文本
三维点云数据
计算机可执行指令
场景
多模态
编码特征
语法结构
融合特征
自然语言
语义
图像
同义词
交互特征
嵌入特征
视觉
预训练语言模型
3D点云数据
处理器
可读存储介质
系统为您推荐了相关专利信息
多模态特征
性评估方法
激光雷达点云数据
高程地图
数据采集设备
水下场景
三维重建方法
三维重建模型
水下光学图像
颜色