音频风格向量训练方法及音频风格向量生成方法

AITNT
正文
推荐专利
音频风格向量训练方法及音频风格向量生成方法
申请号:CN202411591238
申请日期:2024-11-08
公开号:CN119479614B
公开日期:2025-05-13
类型:发明专利
摘要
本发明涉及语音技术领域,公开了音频风格向量训练方法及音频风格向量生成方法,包括:获取样本音频、样本音频的样本文本和样本音频特征;采用风格编码层,基于样本音频特征,确定样本风格向量;采用说话人分类器进行分类得到样本分类结果;采用语音合成模型,基于样本风格向量和样本音频特征进行语音合成,得到合成音频;确定合成损失和分类损失;基于合成损失和分类损失进行训练,将训练好的风格编码层集成到训练好的语音合成模型中,得到目标语音合成模型。本发明无需依赖说话人信息的情况下,也能够准确提取音频中的风格向量,从而基于该风格向量进行训练,使得训练出的语音合成模型能够准确提取音频的风格向量,并且准确地进行语音合成。
技术关键词
样本 音频特征 向量训练方法 风格 向量生成方法 文本 自动编码 分类器 模块 语音技术 标签 搜索算法 训练装置 存储器 生成装置 处理器 计算机设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号