摘要
本发明涉及一种基于大模型的多阶段训练端到端语音模型的方法,包括以下步骤:S1:收集问答语音数据集;S2:采用自有数据训练TTS模型构造多音色问答语音数据集;S3:设置单音色问答语音数据集,针对单音色问答设置多情感、多风格、多语速和多音量的语音问答对数据集;S4:将语音token和文本token拼接,基于中文单音色问答语音数据集和英文单音色问答语音数据集,对大模型进行语音输入到语音输出训练;S5:基于多音色问答语音数据集和选择的风格进行请求,输出对应风格音色的音频,内容根据回答文本集生成;S6:加上多情感的语音输入,形成合理的语音回复。本发明可以直接完成端到端,省时省力,也可以减少级联模型在多阶段的信息丢失问题。
技术关键词
语音
问答对数据
风格
阶段
文本
音频
省时省力
级联
语义
专业
编码
系统为您推荐了相关专利信息
数据加密技术
智能客服
支持多用户协作
任务调度
自然语言
表情面板
拾音传感器
情感类别
情感分类模型
俯仰电机