摘要
本发明涉及语音语义技术领域,可应用于医疗健康和金融科技等领域,公开了一种语音转换方法、装置、设备及存储介质,包括:获取输入语音信号,并将输入语音信号转换为梅尔频谱图;通过音色编码器、内容编码器和韵律编码器从梅尔频谱图中分别提取基本内容信息、全局音色信息和韵律特征信息;对全局音色信息、基本内容信息和韵律特征信息进行量化处理,分别生成音色量化信息、内容量化信息和韵律量化信息;将音色量化信息、内容量化信息和韵律量化信息输入至神经网络模型内,得到语音特征信息;将语音特征信息输入解码器,得到目标语音信号。本发明将语音信号解耦为音色、内容和韵律三个独立属性,分别通过专用编码器提取特征,提高了编码效率。
技术关键词
语音转换方法
韵律特征
语音特征信息
解码信息
神经网络模型
输入解码器
矢量量化
语音语义技术
池化特征
加权特征
语音转换装置
专用编码器
多尺度
通道注意力机制
全局平均池化
信号
处理器
可读存储介质
系统为您推荐了相关专利信息
水切割刀头
切割头设备
线性驱动设备
钢筋混凝土排水管道
高频超声
智能预警系统
风险预测模型
施工现场
卷积神经网络模型
迁移学习技术
广告管理平台
广告特征
广告投放策略
梯度算法
跨渠道
识别关键字
风险评估方法
文本
机器学习算法
语义