一种基于无参数交叉注意力的视觉语言多模态融合方法

AITNT
正文
推荐专利
一种基于无参数交叉注意力的视觉语言多模态融合方法
申请号:CN202510704740
申请日期:2025-05-29
公开号:CN120654176A
公开日期:2025-09-16
类型:发明专利
摘要
一种基于无参数交叉注意力的视觉语言多模态融合方法,属于计算机视觉领域。本发明实现方法为:采用固定预训练语言模型作为主干,使用视觉编码器提取图像特征,并通过无参数激活函数计算语言查询与视觉特征间的交叉注意力权重,替代传统跨注意力模块引入的多组可学习投影矩阵,显著降低模型参数规模。引入基于池化操作的多尺度视觉特征生成机制,为语言模型提供丰富的视觉语义提示信息。结合交叉注意力设计动态特征选择模块,对每个文本令牌所对应的视觉区域进行筛选,丢弃低相关性区域,仅保留对当前语言上下文更具贡献的视觉内容,实现模态间的信息精准匹配与高效融合,提升视觉语言模型在图文问答、图像生成与多模态指令理解等任务中的性能。
技术关键词
多模态融合方法 视觉特征 矩阵低秩分解 文本 参数 融合特征 标记 动态特征选择 语义 预训练语言模型 交叉注意力机制 图像块特征 表达式 图像编码器 多尺度 生成机制
系统为您推荐了相关专利信息
1
基于有限点数据重构瓦斯压力分布的可视化监测方法及系统
煤层瓦斯压力 可视化监测方法 瓦斯抽采钻孔 采掘工作面 短距离
2
一种手术中输注药物的智能输注调节系统及方法
信号采集模块 调节系统 血红蛋白 患者呼吸状态 血压
3
基于对抗训练的RCT文献分类模型训练方法和系统
语义理解模型 二分类模型 框架特征 模型训练方法 样本
4
一种基于多尺度对比学习的涂鸦监督医学图像分割方法
医学图像分割方法 医学图像分割模型 多尺度 图像块 双分支网络
5
一种基于数字孪生的电气运维监控平台管理系统
运维监控平台 数字孪生模型 管理系统 设备控制 电气监控技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号