一种多说话人音频对象定位方法、装置、设备及介质

正文

推荐专利

申请号：CN202411444987

申请日期：2024-10-16

公开号：CN119229876B

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种多说话人音频对象定位方法、装置、设备及介质。该方法包括：获取待处理视频数据及与待处理视频数据对应的待处理音频数据，将待处理视频数据输入到已训练的目标检测模型中，得到各个目标对象的目标位置，通过声纹分割聚类算法对待处理音频数据进行分类，得到各个说话对象的语音片段，将待处理视频数据中各个目标对象的唇动特征和待处理音频数据中各个说话对象的语音片段输入到已训练的主动说话检测模型中，得到目标对象与说话对象的语音片段之间的对应关系，根据目标对象的目标位置、说话对象的语音片段以及目标对象与说话对象的语音片段之间的对应关系，确定各个说话对象的目标位置。

技术关键词

对象定位方法音频语音视频数据样本聚类算法对象定位装置矩阵位置检测模块关系可读存储介质存储计算机程序人脸运动代表轨迹输出模块

系统为您推荐了相关专利信息

大模型微调方法、装置、设备、存储介质和程序产品

数据蒸馏微调方法计算机可读指令电子设备

一种基于MEMS传感器的自动化酿酒系统

MEMS传感器调控组件酿酒系统酒曲控制蒸馏时间

一种基于视频演示的机器人细胞微操作技能学习方法

操作技能学习方法机器人微操作马尔可夫模型多任务

一种基于表格置换不变性的预训练方法和装置

表格生成结构化信息预训练模型电子商务订单企业财务报表

轮胎胎面缠绕路径的生成方法及装置

胶条 NURBS曲线轮胎胎面逼近算法插值算法

一种多说话人音频对象定位方法、装置、设备及介质

站点导航

APP 下载