摘要
本发明提供一种基于特征解耦的语音情感转换方法,涉及人工智能技术领域。该方法包括:内容编码器从源语音中提取仅与语音内容相关的信息并删除与说话者相关的信息,传入神经网络模型中,提取内容相关信息特征;说话人编码器捕捉输入语音中的说话人身份信息;情感编码器包括基音模块和节奏模块用于提取说话人的基音特征和节奏特征;综合解码器将内容编码器、说话人编码器和情感编码器输出的特征信息结合起来,通过学习输入特征与目标输出之间的映射关系,生成具有目标说话人身份和情感风格的转换后语音。该方法充分考虑了影响语音情感表达的关键特征,通过捕捉和融合这些特征,使得转换后的语音呈现更加生动、自然且充满表现力的特质。
技术关键词
二维卷积神经网络
一维卷积神经网络
编码器
转换方法
特征提取网络
说话人身份信息
综合解码器
节奏特征
语音音频数据
声学特征
ReLU函数
上下文特征
人工智能技术
风格
序列特征
注意力
系统为您推荐了相关专利信息
模型构建装置
数据库服务器
应用服务器
客户终端
数据标签
电路监控系统
GPR模型
模拟多路复用器
仲裁电路
加权融合算法
高铁零部件
三维点云数据
实时检测方法
可见光图像
多模态特征融合
手术导航方法
血管分割
三维磁共振
序列
全卷积神经网络