摘要
本发明涉及一种基于多模态的动态面部表情识别方法,包括:获取初始视频样本,根据初始视频样本,获取图像样本序列;将图像样本序列,输入动态面部表情识别模型,从图像样本序列中提取面部表情特征序列,获取面部表情类嵌入的特征向量,根据面部表情类的嵌入特征向量匹配文本描述,获取文本特征向量;将面部表情特征序列和文本特征向量进行相似度计算,获取初始视频样本的面部表情识别结果,其中,动态面部表情识别模型基于CLIP模型构建,并基于训练集训练获得,训练集包括历史图像样本序列及对应的面部表情。本发明分析视觉“类”与文本描述的上下文联系,最终通过相似度计算完成动态面部表情的识别,提高了训练速度和面部表情的预测精度。
技术关键词
动态面部表情
面部表情特征
文本特征向量
识别方法
多模态
样本
面部表情识别
图像
训练集
递归神经网络
文本编码器
视频编码器
序列特征
标记
视觉
转换器
系统为您推荐了相关专利信息
成像激光雷达系统
多光谱
神经网络结构
条纹
DenseNet网络
约束优化模型
参数
物联网监测系统
函数表达式数据
层次结构数据
智能机械手
物体
YOLO模型
双目视觉技术
坐标
分布式架构
融合特征
管理系统
声学传感器
模型更新
数据集构建方法
服装
多模态特征
视觉表现形式
挖掘方法