基于图像文字跨模态迁移的3D任务处理方法及装置

AITNT
正文
推荐专利
基于图像文字跨模态迁移的3D任务处理方法及装置
申请号:CN202510928641
申请日期:2025-07-04
公开号:CN121033596A
公开日期:2025-11-28
类型:发明专利
摘要
本申请涉及计算机视觉技术领域,公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置,该方法包括:获取待处理的3D点云数据进行结构化处理,得到有序的点云块集合;获取与3D点云数据相关联的二维图像数据和/或文本描述数据,提取图像特征向量和/或文本特征向量,对有序的点云块集合进行统一序列化处理,生成融合多模态信息的3D点云特征序列;将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块,动态调整各模态特征的权重并进行融合,生成增强后的3D特征表示,基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力,实现高效鲁棒的3D场景理解。
技术关键词
文本特征向量 图像特征向量 融合多模态信息 二维图像数据 跨模态 图像特征提取模型 3D点云数据 模态特征 序列 计算机视觉技术 网络 适配器 特征提取模块 动态 语义标签
系统为您推荐了相关专利信息
1
基于光学和SAR遥感影像的建筑物屋顶提取方法
高层次 模态特征 多尺度特征融合 影像 注意力机制
2
涉诈网站识别方法、系统、设备及介质
网站识别方法 网页类别 识别模块 文本编码器 图像编码器
3
面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统
个性化语音 文本特征向量 编码器 音色特征 音频
4
一种基于图像分析的数字印刷质量检测方法
图像分析 生成HDR图像 多尺度特征 时空注意力机制 光线追踪算法
5
一种全息眼部多维疾病筛查系统及方法
疾病筛查系统 深度学习模型 数据间关联关系 眼部健康 三维卷积神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号