基于大语言模型的语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510342562

申请日期：2025-03-21

公开号：CN120148472A

公开日期：2025-06-13

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于大语言模型的语音生成方法、装置、设备及介质，包括：获取待生成语音的原始文本；将原始文本输入到通过多阶段参数微调得到的具有混合LoRA适配器的大语言模型中进行文本处理，生成包含语义信息和韵律信息的语义特征；将语义特征输入到预先训练的声学模型中进行特征转换，将语义特征转换为相应的声学特征；将声学特征输入到预先训练的声码器中进行解码处理，生成原始文本对应的语音波形。通过多阶段参数微调得到的具有混合LoRA适配器的大语言模型进行处理，有效利用了大语言模型的先验知识实现文本和语音两个模态的融合，提高语音生成效率且降低对硬件资源的要求。

技术关键词

语音生成方法大语言模型适配器语义特征文本声学特征非易失性计算机可读存储介质数据多阶段生成语音计算机可执行指令声码器参数处理器人工智能技术医疗健康时序

基于大语言模型的语音生成方法、装置、设备及介质

站点导航

APP 下载