一种基于大模型的多阶段训练端到端语音模型的方法

AITNT
正文
推荐专利
一种基于大模型的多阶段训练端到端语音模型的方法
申请号:CN202510047648
申请日期:2025-01-13
公开号:CN119889294A
公开日期:2025-04-25
类型:发明专利
摘要
本发明涉及一种基于大模型的多阶段训练端到端语音模型的方法,包括以下步骤:S1:收集问答语音数据集;S2:采用自有数据训练TTS模型构造多音色问答语音数据集;S3:设置单音色问答语音数据集,针对单音色问答设置多情感、多风格、多语速和多音量的语音问答对数据集;S4:将语音token和文本token拼接,基于中文单音色问答语音数据集和英文单音色问答语音数据集,对大模型进行语音输入到语音输出训练;S5:基于多音色问答语音数据集和选择的风格进行请求,输出对应风格音色的音频,内容根据回答文本集生成;S6:加上多情感的语音输入,形成合理的语音回复。本发明可以直接完成端到端,省时省力,也可以减少级联模型在多阶段的信息丢失问题。
技术关键词
语音 问答对数据 风格 阶段 文本 音频 省时省力 级联 语义 专业 编码
系统为您推荐了相关专利信息
1
一种基于循环缓存的滑动窗口注意力加速方法及装置
滑动窗口 索引 大语言模型 环形 矩阵
2
一种智能任务反馈与数据加密协作的方法
数据加密技术 智能客服 支持多用户协作 任务调度 自然语言
3
一种机器人自主感知的头部系统
表情面板 拾音传感器 情感类别 情感分类模型 俯仰电机
4
语音输入方法、装置、设备、存储介质及程序产品
语音输入方法 控件 虚拟对象 语音输入装置 界面
5
一种处理方法、智能终端及存储介质
元素 智能终端 风格 主题 图像识别技术识别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号