摘要
本发明公开一种基于人体姿态的多模态情绪判别方法,属于计算机视觉中的情绪判别技术领域。其包括:获取待判别的人体姿态视频数据和文本数据,再输入至多模态情绪判别网络模型中;利用视频编码模块对视频数据进行特征提取,再经过视频帧特征融合模块进行融合、第一线性模块进行标准化,生成视频融合特征;利用文本编码模块对文本数据进行特征提取,再经过文本特征强化模块进行融合、第二线性模块进行标准化,生成文本强化特征;利用对比学习模块对视频融合特征和文本强化特征进行相似度计算,输出情绪判别结果。本发明将视觉与语言模态进行了有效融合,且通过对比学习实现了多模态特征的对齐与判别,能够降低数据依赖,提高模型准确率和泛化能力。
技术关键词
视频帧特征
文本
图像特征提取
特征提取模块
融合器
强化特征
线性模块
判别方法
融合特征
空间模块
多模态情绪
多头注意力机制
视频编码
前馈神经网络
编码模块
融合词向量
人体
系统为您推荐了相关专利信息
机器翻译方法
多阶段
语义分析能力
多轮对话
机器翻译系统
地面气象观测站气象探测环境调查评估方法
飞行控制模块
障碍物
无人机飞行路径
可见光图像