一种语音大模型的构建和训练方法、音频输出方法及应用

AITNT
正文
推荐专利
一种语音大模型的构建和训练方法、音频输出方法及应用
申请号:CN202410817603
申请日期:2024-06-24
公开号:CN118398004B
公开日期:2024-09-17
类型:发明专利
摘要
本发明属于自然语言处理技术领域,尤其涉及一种语音大模型的构建和训练方法、音频输出方法及应用。构建和训练方法包括:将包含预训练需求数据和对应的预训练响应数据的预训练集输入语音大模型的编码模块内,将预训练需求映射成预训练需求向量后形成预训练中间表征集送入语音大模型中的处理模块内;处理模块基于预训练需求向量得到响应结果后与预训练中间表征集一并送入语音大模型的判别模块内;预训练中间表征集进入判别模块中的判别器内,同时判别模块将各响应结果送入判别模块的生成器内生成对应音频信号后进入判别器内;判别器计算各音频信号的真实性得分和语音大模型的损失函数后进行优化。本发明能够高效地训练语音大模型。
技术关键词
判别模块 语音 音频输出方法 编码模块 高通滤波器 数据 音频单元 文本 信号 电信诈骗电话 训练集 双曲正切函数 编码器 机器人 空洞 自然语言 时间域
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号