摘要
本发明公开了一种基于CLIP的多模态动态面部表情识别方法,包括以下步骤:构建标签增强模块,生成积极‑消极文本监督,得到积极文本特征和消极文本特征;构建多模态数据挖掘模块,从视频中挖掘不同层次特征信息;使用自适应融合策略,完成人脸表情特征、音频特征、细粒度文本描述特征的融合,得到融合后的特征表示;将融合后的特征表示与积极文本特征、消极文本特征进行余弦相似度计算,得到最终的情绪分类。本发明引入类标签增强,将类标签转换为积极‑消极文本监督,通过P‑N描述符进行标签增强,这样能够区分原本难以区分的模糊类别;利用CLIP的对比学习机制,最大化正确图像‑文本对之间的相似性,从而提升分类和检索的精度。
技术关键词
动态面部表情
文本编码器
音频编码器
图像编码器
适配器
识别方法
音频特征
人脸表情
关键帧
面部特征点
视频帧
多模态
标签
样本
代表
系统为您推荐了相关专利信息
视觉特征
文本编码器
蒸馏学习方法
标签生成方法
蒸馏方法
变压器油中糠醛
智能检测系统
智能算法模块
液芯光纤
深度学习卷积神经网络
日志异常检测方法
预训练语言模型
令牌
适配器
编码器