基于图像文字跨模态迁移的3D任务处理方法及装置

正文

推荐专利

申请号：CN202510928641

申请日期：2025-07-04

公开号：CN121033596A

公开日期：2025-11-28

类型：发明专利

摘要

本申请涉及计算机视觉技术领域，公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置，该方法包括：获取待处理的3D点云数据进行结构化处理，得到有序的点云块集合；获取与3D点云数据相关联的二维图像数据和/或文本描述数据，提取图像特征向量和/或文本特征向量，对有序的点云块集合进行统一序列化处理，生成融合多模态信息的3D点云特征序列；将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块，动态调整各模态特征的权重并进行融合，生成增强后的3D特征表示，基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力，实现高效鲁棒的3D场景理解。

技术关键词

文本特征向量图像特征向量融合多模态信息二维图像数据跨模态图像特征提取模型 3D点云数据模态特征序列计算机视觉技术网络适配器特征提取模块动态语义标签

系统为您推荐了相关专利信息

基于光学和SAR遥感影像的建筑物屋顶提取方法

高层次模态特征多尺度特征融合影像注意力机制

涉诈网站识别方法、系统、设备及介质

网站识别方法网页类别识别模块文本编码器图像编码器

面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

个性化语音文本特征向量编码器音色特征音频

一种基于图像分析的数字印刷质量检测方法

图像分析生成HDR图像多尺度特征时空注意力机制光线追踪算法

一种全息眼部多维疾病筛查系统及方法

疾病筛查系统深度学习模型数据间关联关系眼部健康三维卷积神经网络

基于图像文字跨模态迁移的3D任务处理方法及装置

站点导航

APP 下载