基于上下文多尺度时空图学习的说话者检测方法与装置

AITNT
正文
推荐专利
基于上下文多尺度时空图学习的说话者检测方法与装置
申请号:CN202411129094
申请日期:2024-08-16
公开号:CN119169495A
公开日期:2024-12-20
类型:发明专利
摘要
本申请公开了基于上下文多尺度时空图学习的说话者检测方法、装置、存储介质及电子设备。该方法包括:获取视频数据,从视频数据中提取多个视频帧数据;对多个视频帧数据分别进行特征提取,得到面部表情特征、音频特征与身体语言特征;基于所述面部表情特征、所述音频特征与所述身体语言特征构建多模态动态空间‑时间图;其中,所述多模态动态空间‑时间图包括多幅图快照,所述图快照包括多个节点;将所述图快照输入到图神经网络中,得到所述图快照中每个节点的分类结果;根据所述分类结果,得到所述视频数据中的候选人的说话状态。本申请在处理复杂场景下表现出了更高的准确性和鲁棒性,为活动说话者检测领域带来了重要的技术进步和应用前景。
技术关键词
面部表情特征 音频特征 视频帧 快照 多尺度 多模态 节点 数据 运动检测算法 动态 可读存储介质 特征提取模块 人脸 处理器 面部识别 电子设备 存储器 图像
系统为您推荐了相关专利信息
1
视频编码方法、装置、设备、存储介质、芯片及程序产品
模式 视频编码方法 像素点 数值 可读存储介质
2
一种用于外观缺陷检测的神经网络训练方法、系统、设备及产品
外观缺陷检测 神经网络训练方法 滤除背景噪声 注意力机制 神经网络训练系统
3
基于自适应伪标记与注意力机制的微表情分析方法及系统
光流特征 表情分析方法 微表情分析 三元组 融合注意力机制
4
基于图文匹配的视频片段检索方法、装置、设备及介质
视频片段检索方法 多尺度检测算法 视频块 特征编码模型 文本
5
一种供电调度异常检测系统及方法
异常检测系统 多尺度异常检测 数据挖掘技术 深度学习算法 孤立森林算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号