摘要
本发明公开了一种基于多模态融合与文本增强的面部动作单元识别方法及系统,包括:视觉语言模型提取出面部图像属性集合,基于面部图像属性集合构建自适应文本提示词,采用CLIP对自适应文本提示词进行处理,得到文本语义特征;面部关键点检测模型提取出面部关键点特征;面部表情识别模型提取出面部表情特征;图像语义特征融合模块对面部关键点特征和面部表情特征进行处理,得到多模态图像语义特征;将多模态图像语义特征与文本语义特征输入到多模态特征融合模块,得到文本信息增强后的多模态融合特征;实现对面部图像的面部动作单元的识别。本发明能增强跨模态特征的互补性与联合表征的鲁棒性,有效提升了复杂场景下面部动作的识别精度。
技术关键词
面部表情识别模型
面部图像数据
面部关键点检测
语义特征
面部表情特征
文本
融合特征
多模态特征融合
面部动作单元
注意力
出面部图像
多尺度
自然语言
模块
系统为您推荐了相关专利信息
数据控制方法
语音特征
移动机器人
语音识别文本
运动补偿
耳机佩戴状态
声学特征
振动特征
识别方法
耳机麦克风
语义特征
加密流量分类方法
网络流量数据
编码器
多层感知器