预训练视觉语言模型的方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510182504

申请日期：2025-02-18

公开号：CN120123766A

公开日期：2025-06-10

类型：发明专利

摘要

本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质，属于计算机技术领域。该方法通过从样本图像中分割出样本对象，从样本文本文档中采样得到文本片段，即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系，将文本片段与包括样本对象的对象图像进行跨模态对齐，从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本，提高了预训练视觉语言模型的效率。

技术关键词

前馈神经网络样本文本对象视觉图像分割掩码矩阵电子设备可执行程序代码实体处理器可读存储介质数据处理单元计算机程序产品分词跨模态语义参数

系统为您推荐了相关专利信息

烟丝掺配比例检测方法、装置、计算机设备、存储介质和计算机程序产品

卷积神经网络模型烟丝比例检测方法计算机程序产品烟草检测技术

电池剩余电量估计方法、装置、存储介质及计算机设备

滑动窗口扩展卡尔曼滤波算法计算机可读指令工况样本

一种新型的协同进化多目标优化方法

聚类算法协同进化算法分布估计算法集合策略停滞现象

基于多模态输入的视频生成方法、装置及系统

视频生成方法多模态视频图像特征文本视频生成装置

一种降低复杂环境误识别率的目标检测方法

误识别率图片标签样本坐标

预训练视觉语言模型的方法、装置、设备及存储介质

站点导航

APP 下载