摘要
本发明公开了一种多说话人音频对象定位方法、装置、设备及介质。该方法包括:获取待处理视频数据及与待处理视频数据对应的待处理音频数据,将待处理视频数据输入到已训练的目标检测模型中,得到各个目标对象的目标位置,通过声纹分割聚类算法对待处理音频数据进行分类,得到各个说话对象的语音片段,将待处理视频数据中各个目标对象的唇动特征和待处理音频数据中各个说话对象的语音片段输入到已训练的主动说话检测模型中,得到目标对象与说话对象的语音片段之间的对应关系,根据目标对象的目标位置、说话对象的语音片段以及目标对象与说话对象的语音片段之间的对应关系,确定各个说话对象的目标位置。
技术关键词
对象定位方法
音频
语音
视频
数据
样本
聚类算法
对象定位装置
矩阵
位置检测模块
关系
可读存储介质
存储计算机程序
人脸
运动
代表
轨迹
输出模块
系统为您推荐了相关专利信息
MEMS传感器
调控组件
酿酒系统
酒曲
控制蒸馏时间
操作技能
学习方法
机器人微操作
马尔可夫模型
多任务
表格
生成结构化信息
预训练模型
电子商务订单
企业财务报表
胶条
NURBS曲线
轮胎胎面
逼近算法
插值算法