基于多模态风格嵌入的语音合成方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态风格嵌入的语音合成方法、装置、设备及介质
申请号:CN202510221661
申请日期:2025-02-26
公开号:CN119993114A
公开日期:2025-05-13
类型:发明专利
摘要
本申请提供一种基于多模态风格嵌入的语音合成方法、装置、设备及介质,涉及计算机技术领域。本申请方法通过第一编码器对多模态特征进行特征提取和融合,生成语音嵌入数据,有助于捕捉和保留原始语音信号中的风格和情感特征。通过第二编码器对音素数据进行特征提取,生成文本特征数据,有助于理解文本内容并将其转化为可合成的语音信号。通过特征融合模型将语音嵌入数据和文本特征数据结合起来,生成风格化语音数据,在合成语音时同时考虑语音的自然度和文本的风格,从而在零样本语音合成中实现更丰富、更自然的风格多样性。
技术关键词
风格 多模态特征 预测持续时间 文本 数据 生成语音 说话人身份 转换算法 声学特征 语音编码器 音频 计算机设备 关系 可读存储介质 特征提取模块 情感特征 申请方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号