摘要
发明公开了一种基于奇异值分解增强路由函数的多模态任务的微调方法,包括使用PEFT方法将输入的语言与视觉特征从高维空间映射到低秩空间,通过对低秩空间中的语言特征进行奇异值分解,通过高效重构后的张量进行路由函数对齐,最后重新从低秩空间恢复到原始维度后,与原始语言特征进行残差连接,并输出特征。本发明通过在路由函数之前对语言特征应用奇异值分解,提取其低秩主导模式,增强视觉和语言特征的对齐精度,消除高维噪声的干扰,同时保持计算效率和模型稳定性。通过重构后的张量进行路由计算,可以更好地提取和对齐特征中的关键信息,从而提升特征对齐的精度和效果。适用于视觉问答、图像描述生成等VL任务,能够明显提升模型性能。
技术关键词
微调方法
保留特征
输出特征
缓存机制
视觉特征信息
浮点数
跨模态
元素
序列
矩阵恢复
近似误差
重构误差
瓶颈
新鲜度
语义
文本
系统为您推荐了相关专利信息
语义信息提取方法
大语言模型
三维人体运动
运动生成模型
特征提取器
神经网络编译方法
自定义算子
数据传输开销
最大化吞吐量
任务调度
声源空间定位方法
光纤传感器
深度信念网络
时间差
空间定位信息