基于音视频联合的发言人实时追踪定位方法及系统

正文

推荐专利

申请号：CN202510907238

申请日期：2025-07-02

公开号：CN120412649B

公开日期：2025-09-05

类型：发明专利

摘要

本申请涉及发言人定位技术领域，具体涉及基于音视频联合的发言人实时追踪定位方法及系统，该方法包括：基于每个音频帧在频域中不同频率处的幅值分布，并结合所有混响声帧在所有直达声帧中的占比，确定每个音频帧的综合特征值；通过分析当前发言人与历史发言人之间所有音频帧的音频特征向量的相似度，以确定当前发言人的方向角；获取当前发言人的方向角所在预设拍摄角度区间的摄像机中的视频数据，对当前发言人进行追踪定位。本申请解决了传统基于到达时间差的声源测向方法对发言人定位准确性和实时性低的问题，提高了对发言人实时追踪定位的准确性和实时性。

技术关键词

发言人追踪定位方法音频音视频面部关键点特征值阈值分割算法声源测向方法追踪定位系统面部检测器频率训练神经网络测向算法幅值摄像机数据定位技术信号处理器

基于音视频联合的发言人实时追踪定位方法及系统

站点导航

APP 下载