单通道多说话人因子提取模型训练方法、提取方法、说话人分离方法及相关装置

AITNT
正文
推荐专利
单通道多说话人因子提取模型训练方法、提取方法、说话人分离方法及相关装置
申请号:CN202410999345
申请日期:2024-10-17
公开号:CN119152877A
公开日期:2024-12-17
类型:发明专利
摘要
本申请提供单通道多说话人因子提取模型训练方法、提取方法、说话人分离方法及相关装置,训练方法包括:采用各个说话人分别在多人交替说话场景中发出的第一单通道语音片段数据的表述内容文本特征和第二单通道语音片段数据,针对变分自编码器中的编码器和解码器执行基于表述内容文本蒸馏的模型训练步骤,以将编码器训练为用于提取单通道语音片段数据对应的说话人语音特征的单通道多说话人因子提取模型。本申请能够在模型训练过程中蒸馏说话人单通道语音对应的表述内容文本,能够有效降低表述内容文本对说话人语音特征提取有效性的冗余信息干扰,能够提高采用该模型提取的说话人语音特征的准确性及后续用于单通道多说话人分离的应用有效性和准确性。
技术关键词
说话人语音特征 模型训练方法 聚类 因子 数据 场景 编码器训练 解码器执行 文本 语音特征提取 语音识别系统 音频 分割算法 蒸馏 噪声 模型训练装置 模型训练模块
系统为您推荐了相关专利信息
1
一种人机协同便携式疏果系统
可视化子系统 人机协同 微型计算机 无线通信技术设备 图像
2
一种搅拌机智能调速方法及系统
智能调速方法 搅拌机 参数 支持向量机算法 动态调整机制
3
一种农产品质量安全监控溯源追踪方法
溯源追踪方法 时间预测模型 多指标 数据 订单
4
一种面向云平台的异构设备管理方法和系统
物理设备 格式 面向云平台 异构设备 自定义资源
5
考虑虚拟储能的用户侧资源优化调度方法及相关装置
虚拟储能 资源调度模型 储能系统出力 区域配电网 资源优化调度方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号