摘要
本发明提供一种面向大语言模型的多模态迁移学习方法,利用冻结的图像编码器提取多尺度的图像特征,与一个可学习的模态指示表征和所有的文本特征拼接输入大语言模型进行建模,在图像编码器和大语言模型的自注意力层后都设置轻量级的Adapter模块,迁移学习时仅需更新这些模块的参数即可;在图文问题上,本发明还利用交叉注意力机制在输入特征中生成能够衔接图像与文本的融合提示,更好地指导大语言模型生成更为准确的回答;同时,基于∈‑贪心算法事先搜索到融合提示在大语言模型中的最佳放置层K。本发明方法可实现以低成本、高效率的将大语言模型的通用知识快速迁移至特定多模态任务中,实现单模态和多模态文本指令之间的自动切换。
技术关键词
大语言模型
迁移学习方法
图像编码器
迁移方法
文本
多层感知机
贪心算法
视觉特征
解码器
交叉注意力机制
多模态
模块
池化特征
序列特征
输出特征
参数
上采样
多尺度
系统为您推荐了相关专利信息
时间序列预测方法
时间序列预测模型
大语言模型
时间序列预测系统
非暂态计算机可读存储介质
大语言模型
对话系统
注意力机制
多轮对话
前馈神经网络
模糊位置信息
特征识别方法
空间邻近关系
关系网络
地物信息