摘要
本发明公开了一种面向视觉和语言模型的统一提示学习方法。本发明步骤:步骤1:定义统一的模态无关提示;步骤2:使用轻量级Transformer层转换统一提示;步骤3:将转换后的提示分别输入到文本编码器和视觉编码器;步骤4:在下游任务训练中仅优化统一提示和轻量级Transformer层;步骤5:通过联合优化实现更可靠的预测。本发明简化了视觉‑语言模型的适应性学习流程,提高了模型在少量样本学习和领域泛化任务上的性能。
技术关键词
学习方法
文本编码器
视觉
图像编码器
预训练模型
注意力
定义
网络
层级
参数
样本
模块
系统为您推荐了相关专利信息
Hessian矩阵
特征点
图像采集设备
基准特征
桥梁结构
网络入侵检测方法
样本
注意力模型
网络入侵检测系统
标签
医学图像分类方法
原型
医学图像分割
序列
重叠切片
联动控制方法
分布式传感器网络
罐体
模糊控制规则
视觉识别传感器
理解系统
多模态数据采集
多模态特征融合
强化学习算法
非临时性存储介质