摘要
本发明公开了一种音频数据的音色对象分离方法和装置,方法通过获取原始视频音频数据;若接收到字幕数据,则根据字幕数据的时间戳对原始视频音频数据进行裁剪,得到多段音频粗切片段;采用预设尺寸滑窗从每段音频粗切片段分别提取至少一段音频细切片段;从各段音频细切片段中分别提取音频特征并聚类,确定各音频细切片段对应的对象标签;采用各对象标签回填至音频粗切片段,确定各音频粗切片段所对应的音色对象,从而通过音频粗切与细切过程确定对象标签回填的方式,在多个主说话人场景中有效分离不同音色,满足复杂场景下的需求,提高音频分离准确度。
技术关键词
切片
文本
字幕
对象
语句
声纹模型
标签
音频特征
视频
滤波器
短时傅里叶变换
大语言模型
逻辑
数据获取模块
场景
尺寸
聚类