摘要
本发明提供一种语音合成方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:获取待合成文本以及语气描述文本用于描述待合成的目标语音信号的非语义信息,对待合成文本和语气描述文本进行联合编码得到混合词元序列,将混合词元序列输入至语气控制合成模型获取语气控制合成模型输出的音频词元序列,对音频词元序列进行解码获取目标语音信号。本发明提供的语音合成方法、装置、电子设备及存储介质,通过将自然语言形式的语气描述文本作为附加输入参数,使模型能够直接理解并对语音的非语义属性进行精准调控,解决了现有技术依赖固定标签、控制粒度粗、表达能力单一的技术问题,显著提升了合成语音的可控性、多样性与拟人化表现力。
技术关键词
文本
双模态
样本
序列
语音标签
音频
语义向量
数据
非暂态计算机可读存储介质
大语言模型
信号
电子设备
自然语言
信息采集模块
编码
参数
人工智能技术
处理器
系统为您推荐了相关专利信息
测试平台
测试适配器
功能模块
参数测试系统
GPIO引脚
卫星遥感图像
像素点
指标
土壤微生物群落结构
植被
漏洞分析方法
节点
图谱
神经网络模型
无监督聚类