摘要
本申请实施例提供了一种跨模态数据对齐模型训练方法、装置、设备及存储介质,属于深度学习技术领域。方法包括:将获取到的多个初始样本输入初始模型中,对初始样本进行特征提取处理得到对应的初始特征;分别对各个初始特征进行特征变换处理得到高级模态语义,并将高级模态语义映射到公共空间中得到各个模态对应的独立公共语义;对于每一模态,基于融合引导模块对高级模态语义进行注意力计算得到融合公共语义;通过计算得到的公共语义损失值和重构损失值,对初始数据对齐模型的模型参数进行调整得到训练后的目标模型。本申请能够降低模型训练过程中不同模态间的语义割裂程度,增强最终在公共空间得到的多个公共语义表示之间的关联性。
技术关键词
语义
模型训练方法
注意力
特征提取网络
跨模态数据
文本
图像类别标签
样本类别标签
矩阵
投影特征
重构
图像投影
键值
模块
模型训练装置
深度学习技术
超参数
系统为您推荐了相关专利信息
可见光图像
设备缺陷检测
多模态
融合特征
性能预测模型
激光回波信号处理
模型训练方法
深度测量方法
待测水体
长短期记忆网络
检测分类模型
分类方法
机载雷达
特征提取网络
人机交互界面显示