摘要
本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质,属于计算机技术领域。该方法通过从样本图像中分割出样本对象,从样本文本文档中采样得到文本片段,即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系,将文本片段与包括样本对象的对象图像进行跨模态对齐,从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本,提高了预训练视觉语言模型的效率。
技术关键词
前馈神经网络
样本
文本
对象
视觉
图像分割
掩码矩阵
电子设备
可执行程序代码
实体
处理器
可读存储介质
数据处理单元
计算机程序产品
分词
跨模态
语义
参数
系统为您推荐了相关专利信息
卷积神经网络模型
烟丝
比例检测方法
计算机程序产品
烟草检测技术
滑动窗口
扩展卡尔曼滤波算法
计算机可读指令
工况
样本
聚类算法
协同进化算法
分布估计算法
集合策略
停滞现象
视频生成方法
多模态
视频图像特征
文本
视频生成装置