摘要
本申请提供了一种视觉语言预训练的课程式全局正负样本采样方法、装置和设备,涉及计算机技术领域,旨在实现全局正负样本采样,以对模型进行更好的训练。该方法包括:对训练数据集进行邻居计算和全局聚类,得到不同的聚类、以及各个样本的邻居样本;将训练数据集中文本和图像不匹配的样本,确定为噪声样本,并根据噪声样本的邻居样本构造一个新文本,对噪声样本的文本进行替换,得到跨模态正样本;将训练数据集中相似的图像,作为单模态正样本;根据跨模态正样本和单模态正样本,构建正样本数据集;按照不同的聚类,从正样本数据集中采样多个正样本作为一个训练批次的训练样本,训练样本用于训练视觉语言模型。
技术关键词
噪声样本
样本采样方法
邻居
文本
跨模态
视觉
数据
聚类
图像匹配
样本采样装置
语义
采样模块
处理器
存储器
编码
电子设备
频率
系统为您推荐了相关专利信息
智能营销方法
视觉焦点区域
文本情感倾向
媒体
指数
协同传输方法
李雅普诺夫函数
传输路径
异构
标志位
智能搜索方法
联邦学习技术
动态优先级排序
跨模态数据
语义向量