一种音频数据的音色对象分离方法和装置

正文

推荐专利

一种音频数据的音色对象分离方法和装置

申请号：CN202511131228

申请日期：2025-08-13

公开号：CN120913584A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种音频数据的音色对象分离方法和装置，方法通过获取原始视频音频数据；若接收到字幕数据，则根据字幕数据的时间戳对原始视频音频数据进行裁剪，得到多段音频粗切片段；采用预设尺寸滑窗从每段音频粗切片段分别提取至少一段音频细切片段；从各段音频细切片段中分别提取音频特征并聚类，确定各音频细切片段对应的对象标签；采用各对象标签回填至音频粗切片段，确定各音频粗切片段所对应的音色对象，从而通过音频粗切与细切过程确定对象标签回填的方式，在多个主说话人场景中有效分离不同音色，满足复杂场景下的需求，提高音频分离准确度。

技术关键词

切片文本字幕对象语句声纹模型标签音频特征视频滤波器短时傅里叶变换大语言模型逻辑数据获取模块场景尺寸聚类

一种音频数据的音色对象分离方法和装置

站点导航

APP 下载