摘要
一种基于无参数交叉注意力的视觉语言多模态融合方法,属于计算机视觉领域。本发明实现方法为:采用固定预训练语言模型作为主干,使用视觉编码器提取图像特征,并通过无参数激活函数计算语言查询与视觉特征间的交叉注意力权重,替代传统跨注意力模块引入的多组可学习投影矩阵,显著降低模型参数规模。引入基于池化操作的多尺度视觉特征生成机制,为语言模型提供丰富的视觉语义提示信息。结合交叉注意力设计动态特征选择模块,对每个文本令牌所对应的视觉区域进行筛选,丢弃低相关性区域,仅保留对当前语言上下文更具贡献的视觉内容,实现模态间的信息精准匹配与高效融合,提升视觉语言模型在图文问答、图像生成与多模态指令理解等任务中的性能。
技术关键词
多模态融合方法
视觉特征
矩阵低秩分解
文本
参数
融合特征
标记
动态特征选择
语义
预训练语言模型
交叉注意力机制
图像块特征
表达式
图像编码器
多尺度
生成机制
系统为您推荐了相关专利信息
煤层瓦斯压力
可视化监测方法
瓦斯抽采钻孔
采掘工作面
短距离
信号采集模块
调节系统
血红蛋白
患者呼吸状态
血压
语义理解模型
二分类模型
框架特征
模型训练方法
样本
医学图像分割方法
医学图像分割模型
多尺度
图像块
双分支网络
运维监控平台
数字孪生模型
管理系统
设备控制
电气监控技术