摘要
本公开提供一种基于1对K对比学习的多语言多模态预训练方法。对于一个预训练任务,采用多语言多模态预训练中的通用框架,由多语言文本编码器f、视觉编码器g和具有图像到文本交叉注意的融合编码器φ组成,其图像和文本以1比K的小批比例进行预训练,K≥2,将不同语言的K个文本同时与图像与齐;并采用多语言图像‑文本匹配和跨模态掩蔽语言建模预训练任务叠加在新的1对K对比学习范式上,在通过难样例挖掘来平衡正样本和负样本的基础上,最终实现对于输入图像和文本为1对K的对比学习的多语言多模态模型的预训练过程。
技术关键词
预训练方法
多模态
图像
多语言
代表
文本编码器
通用框架
样本
图文
双向注意力
词语
标记
序列
基础
重构
视觉
策略
系统为您推荐了相关专利信息
提醒方法
动态决策树
多模态数据融合
疲劳状态判定
特征加权融合
工业产品缺陷检测
OpenCV计算机视觉
深度学习训练
彩色图像数据
检测工业产品
可见光图像
红外图像特征
特征提取单元
模型训练模块
图像处理模块
异常检测设备
吊臂
图像处理单元
图像获取单元
关键点