说话人角色分离方法、相关设备及计算机程序产品

AITNT
正文
推荐专利
说话人角色分离方法、相关设备及计算机程序产品
申请号:CN202511032229
申请日期:2025-07-25
公开号:CN120877763A
公开日期:2025-10-31
类型:发明专利
摘要
本申请公开了一种说话人角色分离方法、相关设备及计算机程序产品,方法包括:确定目标音频数据的转写结果,转写结果包括转写文本及说话人转折点信息。将转写文本与目标音频数据进行时间对齐,切分得到单人音频片段。在每一单人音频片段内部进行滑窗提取声纹信息,由于单人音频片段内部仅包含单一说话人内容,因此可以增大窗长而不必担心窗内多人说话的风险,通过较大的窗长可以提升声纹准确性。在全局范围对所有滑窗音频按照声纹信息进行聚类,为同一聚类簇的滑窗音频对应的文本片段赋予同一说话人身份,不同聚类簇的滑窗音频对应的文本片段赋予不同说话人身份,可以提升转写文本层面上说话人角色分离的准确性,尤其适用于长音频场景。
技术关键词
说话人身份 声纹模型 文本 单人 计算机程序产品 音频特征 数据 解码器 聚类 标签 语音 处理器 编码器 标记 可读存储介质 符号 存储器 分辨率 电子设备
系统为您推荐了相关专利信息
1
城市公路运输价格预测方法、装置、电子设备及存储介质
时序特征 价格预测方法 回归预测模型 数据 数值
2
适用于窄带信道条件下的突发事件应急消息压缩传输方法
格式化消息 突发事件应急 消息压缩 字典 窄带通信技术
3
一种基于深度学习注意力模型的ocr敏感数据识别方法
敏感数据识别方法 注意力模型 特征提取单元 深度卷积神经网络 引入注意力机制
4
面向大算力芯片的权重矩阵压缩方法、装置、设备和存储介质产品
切片 矩阵压缩方法 存储介质产品 计算机程序产品 处理器
5
区域碳汇量变化的预测方法、装置、设备、介质及产品
土地利用信息 植被生态系统 总初级生产力 水文模型 径流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号