一种基于1对K对比学习的多语言多模态预训练方法

正文

推荐专利

申请号：CN202411838945

申请日期：2024-12-13

公开号：CN119761451A

公开日期：2025-04-04

类型：发明专利

摘要

本公开提供一种基于1对K对比学习的多语言多模态预训练方法。对于一个预训练任务，采用多语言多模态预训练中的通用框架，由多语言文本编码器f、视觉编码器g和具有图像到文本交叉注意的融合编码器φ组成，其图像和文本以1比K的小批比例进行预训练，K≥2，将不同语言的K个文本同时与图像与齐；并采用多语言图像‑文本匹配和跨模态掩蔽语言建模预训练任务叠加在新的1对K对比学习范式上，在通过难样例挖掘来平衡正样本和负样本的基础上，最终实现对于输入图像和文本为1对K的对比学习的多语言多模态模型的预训练过程。

技术关键词

预训练方法多模态图像多语言代表文本编码器通用框架样本图文双向注意力词语标记序列基础重构视觉策略

系统为您推荐了相关专利信息

一种多模态融合的疲劳监屏识别与提醒方法及系统

提醒方法动态决策树多模态数据融合疲劳状态判定特征加权融合

一种工业产品缺陷检测方法及系统

工业产品缺陷检测 OpenCV计算机视觉深度学习训练彩色图像数据检测工业产品

基于红外短波和可见光图像特征融合的电缆质量检测系统及方法

可见光图像红外图像特征特征提取单元模型训练模块图像处理模块

一种融合多模态眼科数据的角塑验配方案推荐算法及系统

塑形镜验配交互网络推荐算法多模态眼科

基于改进Unet语义分割的钢结构吊装姿态异常检测设备与方法

异常检测设备吊臂图像处理单元图像获取单元关键点

一种基于1对K对比学习的多语言多模态预训练方法

站点导航

APP 下载