摘要
本申请涉及一种基于动态稀疏特征提取的智能系统多模态特征融合方法,包括:基于注意力权重,通过注意力机制分别对稀疏化处理后的图像特征、语音特征、文本特征进行加权池化,将池化的语音特征、文本特征的维度均映射到与池化的图像特征的维度相同的空间,并进行空间维度和通道数对齐;基于对齐的语音特征、文本特征分别引导加权的图像特征;将池化的图像特征按空间维度划分为多个部分,基于语音引导以及文本引导的图像特征与各部分的维度,计算各部分的特征匹配度;各部分基于对应的特征匹配度选择与语音引导/文本引导的图像特征进行初步融合,并基于门控机制,得到各部分的局部融合结果,拼接所有部分的局部融合结果得到多模态融合特征表示。
技术关键词
稀疏特征提取
语音特征
文本
智能系统
图像
注意力机制
融合特征
生成对抗网络
动态
多模态
元素
数据
对抗性
时序
通道
关系