一种基于CLIP的多模态动态面部表情识别方法

正文

推荐专利

申请号：CN202510814911

申请日期：2025-06-18

公开号：CN120356253A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种基于CLIP的多模态动态面部表情识别方法，包括以下步骤：构建标签增强模块，生成积极‑消极文本监督，得到积极文本特征和消极文本特征；构建多模态数据挖掘模块，从视频中挖掘不同层次特征信息；使用自适应融合策略，完成人脸表情特征、音频特征、细粒度文本描述特征的融合，得到融合后的特征表示；将融合后的特征表示与积极文本特征、消极文本特征进行余弦相似度计算，得到最终的情绪分类。本发明引入类标签增强，将类标签转换为积极‑消极文本监督，通过P‑N描述符进行标签增强，这样能够区分原本难以区分的模糊类别；利用CLIP的对比学习机制，最大化正确图像‑文本对之间的相似性，从而提升分类和检索的精度。

技术关键词

动态面部表情文本编码器音频编码器图像编码器适配器识别方法音频特征人脸表情关键帧面部特征点视频帧多模态标签样本代表

系统为您推荐了相关专利信息

基于大规模视觉语言模型的弱监督哈希图像检索方法及系统

哈希图像检索方法汉明距离标签冗余特征图片

基于扩散模型的多任务视觉基础模型图像生成方法

多任务图像生成方法卷积模块视觉适配器

一种开放词汇目标检测模型的蒸馏学习方法、系统、设备及介质

视觉特征文本编码器蒸馏学习方法标签生成方法蒸馏方法

一种免萃取的变压器油中糠醛的原位智能检测系统及方法

变压器油中糠醛智能检测系统智能算法模块液芯光纤深度学习卷积神经网络

一种基于Prompt Tuning和迁移性的日志异常检测方法及系统

日志异常检测方法预训练语言模型令牌适配器编码器

一种基于CLIP的多模态动态面部表情识别方法

站点导航

APP 下载