基于上下文多尺度时空图学习的说话者检测方法与装置

正文

推荐专利

申请号：CN202411129094

申请日期：2024-08-16

公开号：CN119169495A

公开日期：2024-12-20

类型：发明专利

摘要

本申请公开了基于上下文多尺度时空图学习的说话者检测方法、装置、存储介质及电子设备。该方法包括：获取视频数据，从视频数据中提取多个视频帧数据；对多个视频帧数据分别进行特征提取，得到面部表情特征、音频特征与身体语言特征；基于所述面部表情特征、所述音频特征与所述身体语言特征构建多模态动态空间‑时间图；其中，所述多模态动态空间‑时间图包括多幅图快照，所述图快照包括多个节点；将所述图快照输入到图神经网络中，得到所述图快照中每个节点的分类结果；根据所述分类结果，得到所述视频数据中的候选人的说话状态。本申请在处理复杂场景下表现出了更高的准确性和鲁棒性，为活动说话者检测领域带来了重要的技术进步和应用前景。

技术关键词

面部表情特征音频特征视频帧快照多尺度多模态节点数据运动检测算法动态可读存储介质特征提取模块人脸处理器面部识别电子设备存储器图像

系统为您推荐了相关专利信息

视频编码方法、装置、设备、存储介质、芯片及程序产品

模式视频编码方法像素点数值可读存储介质

一种用于外观缺陷检测的神经网络训练方法、系统、设备及产品

外观缺陷检测神经网络训练方法滤除背景噪声注意力机制神经网络训练系统

基于自适应伪标记与注意力机制的微表情分析方法及系统

光流特征表情分析方法微表情分析三元组融合注意力机制

基于图文匹配的视频片段检索方法、装置、设备及介质

视频片段检索方法多尺度检测算法视频块特征编码模型文本

一种供电调度异常检测系统及方法

异常检测系统多尺度异常检测数据挖掘技术深度学习算法孤立森林算法

基于上下文多尺度时空图学习的说话者检测方法与装置

站点导航

APP 下载