一种多说话人音频对象定位方法、装置、设备及介质

AITNT
正文
推荐专利
一种多说话人音频对象定位方法、装置、设备及介质
申请号:CN202411444987
申请日期:2024-10-16
公开号:CN119229876B
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种多说话人音频对象定位方法、装置、设备及介质。该方法包括:获取待处理视频数据及与待处理视频数据对应的待处理音频数据,将待处理视频数据输入到已训练的目标检测模型中,得到各个目标对象的目标位置,通过声纹分割聚类算法对待处理音频数据进行分类,得到各个说话对象的语音片段,将待处理视频数据中各个目标对象的唇动特征和待处理音频数据中各个说话对象的语音片段输入到已训练的主动说话检测模型中,得到目标对象与说话对象的语音片段之间的对应关系,根据目标对象的目标位置、说话对象的语音片段以及目标对象与说话对象的语音片段之间的对应关系,确定各个说话对象的目标位置。
技术关键词
对象定位方法 音频 语音 视频 数据 样本 聚类算法 对象定位装置 矩阵 位置检测模块 关系 可读存储介质 存储计算机程序 人脸 运动 代表 轨迹 输出模块
系统为您推荐了相关专利信息
1
大模型微调方法、装置、设备、存储介质和程序产品
数据 蒸馏 微调方法 计算机可读指令 电子设备
2
一种基于MEMS传感器的自动化酿酒系统
MEMS传感器 调控组件 酿酒系统 酒曲 控制蒸馏时间
3
一种基于视频演示的机器人细胞微操作技能学习方法
操作技能 学习方法 机器人微操作 马尔可夫模型 多任务
4
一种基于表格置换不变性的预训练方法和装置
表格 生成结构化信息 预训练模型 电子商务订单 企业财务报表
5
轮胎胎面缠绕路径的生成方法及装置
胶条 NURBS曲线 轮胎胎面 逼近算法 插值算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号