摘要
本发明公开了一种基于CLIP和多模态掩码提示学习的面部动作单元识别的方法,包括以下步骤;步骤1:基于AU先验位置设计多模态共享的AU提示(AU‑prompt)和注意力掩码,所述AU‑prompt包含多个可学习的token,所述注意力掩码根据不同AU面部肌肉变化的先验位置进行设计,得到特定的AU注意力掩码;步骤2:在多模态提示学习的过程中,将特定AU的注意力掩码引入CLIP模型文本和图像编码器的不同层进行提示学习,同时学习AU局部细节特征和不同AU间全局关联特征,得到局部特征和全局特征;步骤3:将局部特征和全局特征进行融合,并与文本特征计算损失,最终实现AU识别。本发明能够在标注数据有限的情况下,有效地识别面部动作单元。
技术关键词
面部动作单元识别
图像编码器
文本编码器
局部细节特征
视觉
分支
注意力机制
图像特征向量
识别面部
多模态
线性
生成方式
标签
定义
数据
系统为您推荐了相关专利信息
疲劳驾驶检测
融合特征
检测驾驶员疲劳驾驶
交互特征
图像
偏好特征
互动反馈信息
情感识别模型
环境采集设备
语音采集设备