摘要
本申请公开了一种发声位置确定方法、装置、计算机设备及存储介质,该方法包括:获取当前视频帧的发声信息;基于对象标识信息,确定当前视频帧的对象数量;若对象数量大于或等于第一数量阈值且小于第二数量阈值,基于对象位置信息确定当前视频帧的初始发声位置信息;基于发声置信度信息和发声标志位信息对初始发声位置信息进行调整,得到当前视频帧的目标发声位置信息。采用本申请的方法可以得到与画面更加匹配的发声位置信息,并且可以缓解由于发声识别时间所带来的效果延迟。
技术关键词
发声
人脸偏转角度
对象
标志位
视频帧
置信度阈值
标识
计算机设备
队列
图像识别模型
处理器
场景
可读存储介质
模块
存储器
画面