摘要
本发明涉及一种基于神经编解码器的老挝语细粒度韵律建模方法,旨在通过深入分析韵律特征与文本属性之间的关联,并通过捕捉这些细微的韵律变化从而合成更加自然和准确的老挝语语音,属于语音处理技术领域。本发明在VALL‑E模型基础上,设计了词级韵律编码器模块、风格自适应器模块和神经编解码器模块。其中,所述词级韵律编码器模块,主要是对语音信号的低频部分进行定量化,并将韵律特征封装于潜在韵律向量中;风格自适应器模块能够根据从参考语音音频中提取的韵律信息,调整文本输入的增益和偏置;神经编解码器模块,将输入音素以及韵律内容提示生成离散的码元。本发明能够使合成语音更自然、富有表现力,更好地传达语言的意图和情绪。
技术关键词
编解码器
编码器模块
语音
韵律特征
建模方法
风格
音频
高层次
解码模型
波形
文本
双层结构
信号
意图
基础
瓶颈
策略