基于大语言模型的语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于大语言模型的语音生成方法、装置、设备及介质
申请号:CN202510342562
申请日期:2025-03-21
公开号:CN120148472A
公开日期:2025-06-13
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于大语言模型的语音生成方法、装置、设备及介质,包括:获取待生成语音的原始文本;将原始文本输入到通过多阶段参数微调得到的具有混合LoRA适配器的大语言模型中进行文本处理,生成包含语义信息和韵律信息的语义特征;将语义特征输入到预先训练的声学模型中进行特征转换,将语义特征转换为相应的声学特征;将声学特征输入到预先训练的声码器中进行解码处理,生成原始文本对应的语音波形。通过多阶段参数微调得到的具有混合LoRA适配器的大语言模型进行处理,有效利用了大语言模型的先验知识实现文本和语音两个模态的融合,提高语音生成效率且降低对硬件资源的要求。
技术关键词
语音生成方法 大语言模型 适配器 语义特征 文本 声学特征 非易失性计算机可读存储介质 数据 多阶段 生成语音 计算机可执行指令 声码器 参数 处理器 人工智能技术 医疗健康 时序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号