摘要
本申请涉及计算机视觉技术领域,公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置,该方法包括:获取待处理的3D点云数据进行结构化处理,得到有序的点云块集合;获取与3D点云数据相关联的二维图像数据和/或文本描述数据,提取图像特征向量和/或文本特征向量,对有序的点云块集合进行统一序列化处理,生成融合多模态信息的3D点云特征序列;将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块,动态调整各模态特征的权重并进行融合,生成增强后的3D特征表示,基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力,实现高效鲁棒的3D场景理解。
技术关键词
文本特征向量
图像特征向量
融合多模态信息
二维图像数据
跨模态
图像特征提取模型
3D点云数据
模态特征
序列
计算机视觉技术
网络
适配器
特征提取模块
动态
语义标签
系统为您推荐了相关专利信息
高层次
模态特征
多尺度特征融合
影像
注意力机制
网站识别方法
网页类别
识别模块
文本编码器
图像编码器
图像分析
生成HDR图像
多尺度特征
时空注意力机制
光线追踪算法
疾病筛查系统
深度学习模型
数据间关联关系
眼部健康
三维卷积神经网络