摘要
本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域,针对的问题是:现有方法无法识别面部表情的细微变化,仅关注视频相关信息,忽视帧内信息和文本信息,模型识别不准确。本发明获取动态面部表情视频数据集;通过图像编码器,提取每一帧的面部特征向量,采用三阶段可优化提示学习方法进行优化学习,将优化学得到的融合后的提示输入至时间模型,得到面部视频特征;通过文本编码器中,提取面部表情类别相关的文本特征;将面部视频特征与文本特征进行余弦相似度计算,得到预测概率,确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。
技术关键词
面部视频特征
表情识别方法
动态面部表情
多模态
文本编码器
图像编码器
阶段
学习方法
视觉
面部关键点检测
识别面部表情
表情识别系统
视频特征提取
计算机装置
特征提取模块
处理器
系统为您推荐了相关专利信息
可穿戴设备
运动模式识别
生成规则
运动训练
数据获取模块
区域划分方法
激光雷达点云数据
障碍物
聚类
地面
生成对抗网络模型
学生
动态反馈机制
深度学习训练
地理实体
心理治疗系统
心理治疗方法
监测模块
控制模块
建立情感模型
图像分类方法
多模态
文本特征向量
文本编码器
分类程序