摘要
本发明公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征,利用多模态特征作为输入进一步处理获得分类的预测值,并结合聚类算法获得聚类标签,利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失,以图文语义关系对齐的损失最小化为目标针对分类器进行训练;重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器,并利用图文语义关系对齐处理训练,进而增强了图文关系分类和图文语义关系的理解能力,提升了处理速度和准确性。
技术关键词
图文
多模态特征
语义
文本
图片
样本
标签
分类器
编码器
关系
预训练模型
聚类算法
矩阵
训练语言模型
深度学习技术
数据
字符
系统为您推荐了相关专利信息
环境参数采集器
服务器机房
巡检机器人
巡检设备
机器人轨道
并行优化方法
水力发电设备
多模态
LORA技术
公告牌
投影特征
点云融合方法
坐标系
语义分割网络
计算机程序产品