一种基于图文语义关系对齐的图文数据多模态训练方法

AITNT
正文
推荐专利
一种基于图文语义关系对齐的图文数据多模态训练方法
申请号:CN202510013325
申请日期:2025-01-06
公开号:CN119416064A
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征,利用多模态特征作为输入进一步处理获得分类的预测值,并结合聚类算法获得聚类标签,利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失,以图文语义关系对齐的损失最小化为目标针对分类器进行训练;重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器,并利用图文语义关系对齐处理训练,进而增强了图文关系分类和图文语义关系的理解能力,提升了处理速度和准确性。
技术关键词
图文 多模态特征 语义 文本 图片 样本 标签 分类器 编码器 关系 预训练模型 聚类算法 矩阵 训练语言模型 深度学习技术 数据 字符
系统为您推荐了相关专利信息
1
服务器机房的巡检方法、装置、存储介质和电子设备
环境参数采集器 服务器机房 巡检机器人 巡检设备 机器人轨道
2
一种水力发电设备知识多模态大模型的并行优化方法
并行优化方法 水力发电设备 多模态 LORA技术 公告牌
3
点云融合方法及装置、存储介质、终端、计算机程序产品
投影特征 点云融合方法 坐标系 语义分割网络 计算机程序产品
4
属性级情感分类方法及设备
文本 语义 序列 情感分类方法 多信息
5
凝视点引导的儿童视觉认知分类方法、系统及设备
视觉 样本 眼动数据 分类方法 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号