摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种目标信号生成方法、装置、设备及介质,包括:获取输入数据并进行编码,生成初始数据表征;对输入数据进行语义分析,生成语义特征;将语义特征输入属性编码器,生成动态属性表征向量;将动态属性表征向量与初始数据表征进行融合,获得融合特征;基于融合特征通过解码器生成中间频谱表征;将中间频谱表征输入声码器,转换为目标信号。本发明通过在生成过程中动态融合语义特征与属性编码信息,结合解码器与声码器的联合建模,实现了多说话者环境下对目标信号的高质量重构,提升了语音合成系统在多说话者、零样本场景下的自然度和灵活性。
技术关键词
信号生成方法
语义特征
信号生成程序
声码器
融合特征
声学特征
解码器
词嵌入向量
数据
编码器
信号生成装置
上下文特征
序列
动态
双向长短期记忆网络
编码向量
高质量重构
注意力机制