一种结合视觉-语言预训练和提示学习的域泛化方法

正文

推荐专利

申请号：CN202410736279

申请日期：2024-06-07

公开号：CN118607591A

公开日期：2024-09-06

类型：发明专利

摘要

本发明公开了一种结合视觉‑语言预训练和提示学习的域泛化方法。所述方法基于一训练完成的多模态模型以及植入该模型的至少一个域提示生成器，所述多模态模型包括至少一个图像编码器、至少一个文本编码器；获取多域文本数据集及多域图像数据集，并利用模型从多域文本数据集提取每条文本数据对应的第一文本特征，以及，从多域图像数据集提取每张图像数据对应的第一图像特征；在图像编码器中嵌入可学习向量，并利用嵌入后的图像编码器提取多域图像数据集中每张图像数据对应的第二图像特征；将每张图像数据对应的第二图像特征输入域提示生成器，得到每个域对应的总体语言提示等。本发明能够提高模型在未见领域的准确性和效率，解决现有技术中存在的问题。

技术关键词

图像编码器泛化方法文本特征加权文本编码器特征加权融合数据视觉特征提取模块样本多模态补丁处理器通信图像分割标签可读存储介质

一种结合视觉-语言预训练和提示学习的域泛化方法

站点导航

APP 下载