一种语音大模型的构建和训练方法、音频输出方法及应用

正文

推荐专利

申请号：CN202410817603

申请日期：2024-06-24

公开号：CN118398004B

公开日期：2024-09-17

类型：发明专利

摘要

本发明属于自然语言处理技术领域，尤其涉及一种语音大模型的构建和训练方法、音频输出方法及应用。构建和训练方法包括：将包含预训练需求数据和对应的预训练响应数据的预训练集输入语音大模型的编码模块内，将预训练需求映射成预训练需求向量后形成预训练中间表征集送入语音大模型中的处理模块内；处理模块基于预训练需求向量得到响应结果后与预训练中间表征集一并送入语音大模型的判别模块内；预训练中间表征集进入判别模块中的判别器内，同时判别模块将各响应结果送入判别模块的生成器内生成对应音频信号后进入判别器内；判别器计算各音频信号的真实性得分和语音大模型的损失函数后进行优化。本发明能够高效地训练语音大模型。

技术关键词

判别模块语音音频输出方法编码模块高通滤波器数据音频单元文本信号电信诈骗电话训练集双曲正切函数编码器机器人空洞自然语言时间域

一种语音大模型的构建和训练方法、音频输出方法及应用

站点导航

APP 下载