基于三阶段多模态视觉语言提示的表情识别方法和系统

AITNT
正文
推荐专利
基于三阶段多模态视觉语言提示的表情识别方法和系统
申请号:CN202411891224
申请日期:2024-12-20
公开号:CN119763171A
公开日期:2025-04-04
类型:发明专利
摘要
本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域,针对的问题是:现有方法无法识别面部表情的细微变化,仅关注视频相关信息,忽视帧内信息和文本信息,模型识别不准确。本发明获取动态面部表情视频数据集;通过图像编码器,提取每一帧的面部特征向量,采用三阶段可优化提示学习方法进行优化学习,将优化学得到的融合后的提示输入至时间模型,得到面部视频特征;通过文本编码器中,提取面部表情类别相关的文本特征;将面部视频特征与文本特征进行余弦相似度计算,得到预测概率,确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。
技术关键词
面部视频特征 表情识别方法 动态面部表情 多模态 文本编码器 图像编码器 阶段 学习方法 视觉 面部关键点检测 识别面部表情 表情识别系统 视频特征提取 计算机装置 特征提取模块 处理器
系统为您推荐了相关专利信息
1
一种基于可穿戴设备的手指康复监测系统
可穿戴设备 运动模式识别 生成规则 运动训练 数据获取模块
2
基于激光雷达的智能区域划分方法及相关设备
区域划分方法 激光雷达点云数据 障碍物 聚类 地面
3
基于人工智能的地理学习增强方法
生成对抗网络模型 学生 动态反馈机制 深度学习训练 地理实体
4
一种基于虚拟现实的心理治疗系统和方法
心理治疗系统 心理治疗方法 监测模块 控制模块 建立情感模型
5
一种基于多模态大模型的舌图像分类方法、系统及终端
图像分类方法 多模态 文本特征向量 文本编码器 分类程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号