摘要
本发明公开了一种基于双重跨模态注意力的表情运动单元检测方法,通过视觉编码器、局部感知注意力矩阵和图卷积网络获得精细化的多粒度视觉特征表示;利用多层次编码过程,先建模AU描述中单词间的语义关联,后建模不同AU描述之间的句子级的语义关联,有效挖掘AU描述中的丰富语义信息,显著增强AU文本特征的表达能力;设计了一种全局与局部协同的双重跨模态注意力策略,以实现视觉与文本模态深度交互,帮助模型更全面地理解视觉和文本模态之间的复杂语义关联,增强AU特征表示。最终,通过结合多粒度视觉特征和多层次文本特征,以及双重跨模态注意力的协同作用,构建了一个强大的深度学习框架,有效提升表情运动单元检测的性能。
技术关键词
局部视觉特征
全局视觉特征
跨模态
节点
交互特征
文本
多模态
邻居
注意力机制
模态特征
数据
融合特征
深度学习框架
全局平均池化
语义
多层次
可读存储介质
图像
系统为您推荐了相关专利信息
配网无功补偿
优化配置方法
概率潮流方法
粒子群算法求解
机会约束规划
智能工厂
物理设备
节点
数据处理方法
数字孪生技术
电网故障检测方法
分布式边缘
电网故障检测系统
时间序列特征
神经网络架构