摘要
本发明涉及语音处理技术领域,具体涉及一种基于角色分离的销售语音对话语者分割与标记方法,包括以下步骤:生成带时间戳的语音段序列,同步提取每个语音段的声纹特征向量,启动静默意图分析引擎,根据静默段前后语音段的语义内容预测当前静默的归属角色,生成虚拟声纹特征向量并插入语音段序列;对声纹特征向量进行角色聚类,分裂生成新语者类簇;当检测到语音段中存在说话重叠或音频缺失时,触发混合语音分离与生成式补偿。本发明,提升了对销售角色变换、声线伪装等场景下的异常识别能力,降低了销售与客户语音混淆的风险,确保每一语音段的角色标记连贯准确。
技术关键词
标记方法
音频
语音活动检测
标签
序列
带时间
声纹特征
语义向量
文本
聚类
客户
意图
术语
语音特征
非语音
场景
通道