基于三阶段多模态视觉语言提示的表情识别方法和系统

正文

推荐专利

申请号：CN202411891224

申请日期：2024-12-20

公开号：CN119763171A

公开日期：2025-04-04

类型：发明专利

摘要

本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域，针对的问题是：现有方法无法识别面部表情的细微变化，仅关注视频相关信息，忽视帧内信息和文本信息，模型识别不准确。本发明获取动态面部表情视频数据集；通过图像编码器，提取每一帧的面部特征向量，采用三阶段可优化提示学习方法进行优化学习，将优化学得到的融合后的提示输入至时间模型，得到面部视频特征；通过文本编码器中，提取面部表情类别相关的文本特征；将面部视频特征与文本特征进行余弦相似度计算，得到预测概率，确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。

技术关键词

面部视频特征表情识别方法动态面部表情多模态文本编码器图像编码器阶段学习方法视觉面部关键点检测识别面部表情表情识别系统视频特征提取计算机装置特征提取模块处理器

系统为您推荐了相关专利信息

一种基于可穿戴设备的手指康复监测系统

可穿戴设备运动模式识别生成规则运动训练数据获取模块

基于激光雷达的智能区域划分方法及相关设备

区域划分方法激光雷达点云数据障碍物聚类地面

基于人工智能的地理学习增强方法

生成对抗网络模型学生动态反馈机制深度学习训练地理实体

一种基于虚拟现实的心理治疗系统和方法

心理治疗系统心理治疗方法监测模块控制模块建立情感模型

一种基于多模态大模型的舌图像分类方法、系统及终端

图像分类方法多模态文本特征向量文本编码器分类程序

基于三阶段多模态视觉语言提示的表情识别方法和系统

站点导航

APP 下载