一种融合多头交叉注意力机制与Q-former的多模态大模型扩展方法

正文

推荐专利

申请号：CN202510589616

申请日期：2025-05-08

公开号：CN120524987A

公开日期：2025-08-22

类型：发明专利

摘要

本发明公开了一种融合多头交叉注意力机制与Q‑former的多模态大模型扩展方法，属于工智能和机器学习领域。本发明包括：对文本数据与对应的多模态数据编码，并将编码后的多模态特征向量与文本特征向量对齐，形成文本‑多模态数据对；将对齐后的文本‑多模态数据对进行多头交叉注意力计算；对每种多模态数据进行Q‑former查询机制计算，得到与文本数据没有强相关性但保留了多模态数据的大量信息的结果；将交叉注意力计算的结果和Q‑former计算的结果融合；根据所选择的文本大模型的输入不同，设置输入变换层进行变换后再输入文本大模型。本发明通过增强模型的自适应能力，使其能够根据不同的任务和输入动态调整连接器的行为，从而实现更高效的多模态信息处理。

技术关键词

交叉注意力机制模型扩展方法文本特征向量查询机制多模态矩阵模态特征数据编码信息处理音频图片视频动态

系统为您推荐了相关专利信息

基于深度学习的多模态医学影像数据融合分析系统

模态医学影像医疗影像数据分析系统矩阵识别模块

一种基于人工智能的大健康定制化人才培养系统

多模态数据采集实训模块策略条件生成对抗网络噪声强度系数

会议纪要的生成方法和设备、图像采集设备及存储介质

多模态注意力模型情感特征生成方法生成会议纪要音频

一种智能护理记录生成方法及装置

语音特征监督学习模型文本说话人模型语义特征

基于多模态融合的离散制造产品缺陷AI视觉检测方法

可见光图像视觉检测方法成像模组 DS证据理论校正

一种融合多头交叉注意力机制与Q-former的多模态大模型扩展方法

站点导航

APP 下载