摘要
本申请公开了一种说话人角色分离方法、相关设备及计算机程序产品,方法包括:确定目标音频数据的转写结果,转写结果包括转写文本及说话人转折点信息。将转写文本与目标音频数据进行时间对齐,切分得到单人音频片段。在每一单人音频片段内部进行滑窗提取声纹信息,由于单人音频片段内部仅包含单一说话人内容,因此可以增大窗长而不必担心窗内多人说话的风险,通过较大的窗长可以提升声纹准确性。在全局范围对所有滑窗音频按照声纹信息进行聚类,为同一聚类簇的滑窗音频对应的文本片段赋予同一说话人身份,不同聚类簇的滑窗音频对应的文本片段赋予不同说话人身份,可以提升转写文本层面上说话人角色分离的准确性,尤其适用于长音频场景。
技术关键词
说话人身份
声纹模型
文本
单人
计算机程序产品
音频特征
数据
解码器
聚类
标签
语音
处理器
编码器
标记
可读存储介质
符号
存储器
分辨率
电子设备
系统为您推荐了相关专利信息
格式化消息
突发事件应急
消息压缩
字典
窄带通信技术
敏感数据识别方法
注意力模型
特征提取单元
深度卷积神经网络
引入注意力机制
切片
矩阵压缩方法
存储介质产品
计算机程序产品
处理器
土地利用信息
植被生态系统
总初级生产力
水文模型
径流