一种基于无参数交叉注意力的视觉语言多模态融合方法

正文

推荐专利

申请号：CN202510704740

申请日期：2025-05-29

公开号：CN120654176A

公开日期：2025-09-16

类型：发明专利

摘要

一种基于无参数交叉注意力的视觉语言多模态融合方法，属于计算机视觉领域。本发明实现方法为：采用固定预训练语言模型作为主干，使用视觉编码器提取图像特征，并通过无参数激活函数计算语言查询与视觉特征间的交叉注意力权重，替代传统跨注意力模块引入的多组可学习投影矩阵，显著降低模型参数规模。引入基于池化操作的多尺度视觉特征生成机制，为语言模型提供丰富的视觉语义提示信息。结合交叉注意力设计动态特征选择模块，对每个文本令牌所对应的视觉区域进行筛选，丢弃低相关性区域，仅保留对当前语言上下文更具贡献的视觉内容，实现模态间的信息精准匹配与高效融合，提升视觉语言模型在图文问答、图像生成与多模态指令理解等任务中的性能。

技术关键词

多模态融合方法视觉特征矩阵低秩分解文本参数融合特征标记动态特征选择语义预训练语言模型交叉注意力机制图像块特征表达式图像编码器多尺度生成机制

系统为您推荐了相关专利信息

基于有限点数据重构瓦斯压力分布的可视化监测方法及系统

煤层瓦斯压力可视化监测方法瓦斯抽采钻孔采掘工作面短距离

一种手术中输注药物的智能输注调节系统及方法

信号采集模块调节系统血红蛋白患者呼吸状态血压

基于对抗训练的RCT文献分类模型训练方法和系统

语义理解模型二分类模型框架特征模型训练方法样本

一种基于多尺度对比学习的涂鸦监督医学图像分割方法

医学图像分割方法医学图像分割模型多尺度图像块双分支网络

一种基于数字孪生的电气运维监控平台管理系统

运维监控平台数字孪生模型管理系统设备控制电气监控技术

一种基于无参数交叉注意力的视觉语言多模态融合方法

站点导航

APP 下载