一种语音生成方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411482553

申请日期：2024-10-23

公开号：CN119314461A

公开日期：2025-01-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种语音生成方法、装置、计算机设备及存储介质，包括：获取语音样本数据，所述语音样本数据包括独白语音样本数据和对话语音样本数据；构建语音生成网络框架，所述语音生成网络框架包括文本转语义模型、声学模型及声码器；基于所述语音样本数据对所述语音生成网络框架进行训练，得到对话语音生成模型；获取待生成对话语音的初始文本，将所述初始文本输入所述对话语音生成模型，生成对应的多轮对话语音。本发明可以同时进行多流语义特征预测，每条语义特征序列对应一个说话人，生成的对话式语音不仅在自然性和连贯性上与真实人类语音类似，而且涉及了多个说话人的多轮对话，提升了用户体验。

技术关键词

语音生成方法语音生成模型多轮对话语义特征文本样本数据声码器计算机可执行指令计算机设备序列框架网络多通道处理器解码器结构模型训练模块可读存储介质

系统为您推荐了相关专利信息

一种认知功能的智能化评估系统

认知功能评估人机交互模块算法模块评估系统语音识别单元

基于语音指令的车辆功能执行方法、车载终端及存储介质

场景特征语音助手车载终端功能执行方法感兴趣

问答模型训练方法、装置、设备及存储介质

问答模型训练方法客服客户计算机执行指令数据

一种基于多模态大模型的数字人构造方法及系统

躯干模型头部模型视频多模态文本

一种基于文本注意力的跨模态表征模型构建方法及检索方法

注意力文本编码器模型构建方法编码特征跨模态

一种语音生成方法、装置、计算机设备及存储介质

站点导航

APP 下载