摘要
本发明公开一种多模态大语言模型的免训练视觉提示方法、电子设备和存储介质,无需训练即可将视觉提示集成到多模态大语言模型中。首先,对于给定图像和文本,图像通过视觉编码器和多层感知机得到视觉特征,文本通过文本编码器得到文本特征,同时定义一个与视觉特征相同尺寸的可学习潜在变量;接着,将潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型部分计算得到多个注意力权重矩阵,这些矩阵经过平均池化处理以形成最终的注意力权重矩阵;根据输入的视觉提示,使用相应的能量函数计算并更新潜在变量的值,此过程重复多次以优化潜在变量;最终,更新后潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型产生模型响应。
技术关键词
大语言模型
提示方法
视觉特征
变量
注意力
文本编码器
矩阵
多模态
多层感知机
策略
滑动平均值
电子设备
图像
指数
计算机
超参数
可读存储介质
存储器