说话人角色分离方法、相关设备及计算机程序产品

正文

推荐专利

申请号：CN202511032229

申请日期：2025-07-25

公开号：CN120877763A

公开日期：2025-10-31

类型：发明专利

摘要

本申请公开了一种说话人角色分离方法、相关设备及计算机程序产品，方法包括：确定目标音频数据的转写结果，转写结果包括转写文本及说话人转折点信息。将转写文本与目标音频数据进行时间对齐，切分得到单人音频片段。在每一单人音频片段内部进行滑窗提取声纹信息，由于单人音频片段内部仅包含单一说话人内容，因此可以增大窗长而不必担心窗内多人说话的风险，通过较大的窗长可以提升声纹准确性。在全局范围对所有滑窗音频按照声纹信息进行聚类，为同一聚类簇的滑窗音频对应的文本片段赋予同一说话人身份，不同聚类簇的滑窗音频对应的文本片段赋予不同说话人身份，可以提升转写文本层面上说话人角色分离的准确性，尤其适用于长音频场景。

技术关键词

说话人身份声纹模型文本单人计算机程序产品音频特征数据解码器聚类标签语音处理器编码器标记可读存储介质符号存储器分辨率电子设备

系统为您推荐了相关专利信息

城市公路运输价格预测方法、装置、电子设备及存储介质

时序特征价格预测方法回归预测模型数据数值

适用于窄带信道条件下的突发事件应急消息压缩传输方法

格式化消息突发事件应急消息压缩字典窄带通信技术

一种基于深度学习注意力模型的ocr敏感数据识别方法

敏感数据识别方法注意力模型特征提取单元深度卷积神经网络引入注意力机制

面向大算力芯片的权重矩阵压缩方法、装置、设备和存储介质产品

切片矩阵压缩方法存储介质产品计算机程序产品处理器

区域碳汇量变化的预测方法、装置、设备、介质及产品

土地利用信息植被生态系统总初级生产力水文模型径流

说话人角色分离方法、相关设备及计算机程序产品

站点导航

APP 下载