一种基于大模型的多阶段训练端到端语音模型的方法

正文

推荐专利

申请号：CN202510047648

申请日期：2025-01-13

公开号：CN119889294A

公开日期：2025-04-25

类型：发明专利

摘要

本发明涉及一种基于大模型的多阶段训练端到端语音模型的方法，包括以下步骤：S1：收集问答语音数据集；S2：采用自有数据训练TTS模型构造多音色问答语音数据集；S3：设置单音色问答语音数据集，针对单音色问答设置多情感、多风格、多语速和多音量的语音问答对数据集；S4：将语音token和文本token拼接，基于中文单音色问答语音数据集和英文单音色问答语音数据集，对大模型进行语音输入到语音输出训练；S5：基于多音色问答语音数据集和选择的风格进行请求，输出对应风格音色的音频，内容根据回答文本集生成；S6：加上多情感的语音输入，形成合理的语音回复。本发明可以直接完成端到端，省时省力，也可以减少级联模型在多阶段的信息丢失问题。

技术关键词

语音问答对数据风格阶段文本音频省时省力级联语义专业编码

系统为您推荐了相关专利信息

一种基于循环缓存的滑动窗口注意力加速方法及装置

滑动窗口索引大语言模型环形矩阵

一种智能任务反馈与数据加密协作的方法

数据加密技术智能客服支持多用户协作任务调度自然语言

一种机器人自主感知的头部系统

表情面板拾音传感器情感类别情感分类模型俯仰电机

语音输入方法、装置、设备、存储介质及程序产品

语音输入方法控件虚拟对象语音输入装置界面

一种处理方法、智能终端及存储介质

元素智能终端风格主题图像识别技术识别

一种基于大模型的多阶段训练端到端语音模型的方法

站点导航

APP 下载