摘要
本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品,涉及人工智能技术领域,该方法包括:利用可学习提示器获取不同类别的图像的可学习提示词,对不同类别的可学习提示词进行编码得到第一文本编码;获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码;基于相同类别对应的第一文本编码和第二文本编码计算第一损失值;利用视觉提取器提取不同类别的图像在视觉层面上的视觉编码,基于相同类别对应的第一文本编码和视觉编码计算第二损失值;基于第一损失值与第二损失值的和计算整体损失值,并基于整体损失值训练可学习提示器和视觉提取器得到训练完成的视觉语言模型。本发明提高了视觉语言模型的泛化能力。
技术关键词
语言模型训练方法
视觉
融合外部知识
文本
编码
图像
高频特征
非易失性存储介质
融合特征
计算机程序产品
预训练模型
适配器
提示器
色彩
注意力机制
深度学习模型
存储计算机程序
人工智能技术
自然语言
电子设备
系统为您推荐了相关专利信息
大语言模型
文本
工程项目管理系统
报告生成方法
生成工作
转换器模块
注意力
医学图像分割方法
医学图像数据
编码器
表头
表格
知识存储方法
问答场景
文本分类模型训练