摘要
本申请公开了基于上下文多尺度时空图学习的说话者检测方法、装置、存储介质及电子设备。该方法包括:获取视频数据,从视频数据中提取多个视频帧数据;对多个视频帧数据分别进行特征提取,得到面部表情特征、音频特征与身体语言特征;基于所述面部表情特征、所述音频特征与所述身体语言特征构建多模态动态空间‑时间图;其中,所述多模态动态空间‑时间图包括多幅图快照,所述图快照包括多个节点;将所述图快照输入到图神经网络中,得到所述图快照中每个节点的分类结果;根据所述分类结果,得到所述视频数据中的候选人的说话状态。本申请在处理复杂场景下表现出了更高的准确性和鲁棒性,为活动说话者检测领域带来了重要的技术进步和应用前景。
技术关键词
面部表情特征
音频特征
视频帧
快照
多尺度
多模态
节点
数据
运动检测算法
动态
可读存储介质
特征提取模块
人脸
处理器
面部识别
电子设备
存储器
图像
系统为您推荐了相关专利信息
外观缺陷检测
神经网络训练方法
滤除背景噪声
注意力机制
神经网络训练系统
光流特征
表情分析方法
微表情分析
三元组
融合注意力机制
视频片段检索方法
多尺度检测算法
视频块
特征编码模型
文本
异常检测系统
多尺度异常检测
数据挖掘技术
深度学习算法
孤立森林算法