摘要
本申请涉及发言人定位技术领域,具体涉及基于音视频联合的发言人实时追踪定位方法及系统,该方法包括:基于每个音频帧在频域中不同频率处的幅值分布,并结合所有混响声帧在所有直达声帧中的占比,确定每个音频帧的综合特征值;通过分析当前发言人与历史发言人之间所有音频帧的音频特征向量的相似度,以确定当前发言人的方向角;获取当前发言人的方向角所在预设拍摄角度区间的摄像机中的视频数据,对当前发言人进行追踪定位。本申请解决了传统基于到达时间差的声源测向方法对发言人定位准确性和实时性低的问题,提高了对发言人实时追踪定位的准确性和实时性。
技术关键词
发言人
追踪定位方法
音频
音视频
面部关键点
特征值
阈值分割算法
声源测向方法
追踪定位系统
面部检测器
频率
训练神经网络
测向算法
幅值
摄像机
数据
定位技术
信号
处理器