一种基于图文语义关系对齐的图文数据多模态训练方法

正文

推荐专利

申请号：CN202510013325

申请日期：2025-01-06

公开号：CN119416064A

公开日期：2025-02-11

类型：发明专利

摘要

本发明公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征，利用多模态特征作为输入进一步处理获得分类的预测值，并结合聚类算法获得聚类标签，利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失，以图文语义关系对齐的损失最小化为目标针对分类器进行训练；重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器，并利用图文语义关系对齐处理训练，进而增强了图文关系分类和图文语义关系的理解能力，提升了处理速度和准确性。

技术关键词

图文多模态特征语义文本图片样本标签分类器编码器关系预训练模型聚类算法矩阵训练语言模型深度学习技术数据字符

系统为您推荐了相关专利信息

服务器机房的巡检方法、装置、存储介质和电子设备

环境参数采集器服务器机房巡检机器人巡检设备机器人轨道

一种水力发电设备知识多模态大模型的并行优化方法

并行优化方法水力发电设备多模态 LORA技术公告牌

点云融合方法及装置、存储介质、终端、计算机程序产品

投影特征点云融合方法坐标系语义分割网络计算机程序产品

属性级情感分类方法及设备

文本语义序列情感分类方法多信息

凝视点引导的儿童视觉认知分类方法、系统及设备

视觉样本眼动数据分类方法语义

一种基于图文语义关系对齐的图文数据多模态训练方法

站点导航

APP 下载