摘要
本申请提供了一种基于场景感知和自然语言描述的个性化语音合成方法、装置和设备,涉及语音合成技术领域,旨在生成兼具个性化、表现力且符合语境的语音。该方法包括:对第一文本进行语义分析,得到第一语义特征,所述第一文本包括文本内容和场景描述;根据所述第一语义特征进行场景分类生成,得到场景向量,所述场景向量表征场景类别;根据所述场景向量生成场景音特征;对第二文本进行语义分析,得到第二语义特征,所述第二文本至少包括语音风格的自然语言描述;根据所述第二语义特征进行情感类别预测和风格特征提取,得到风格控制参数;根据所述场景音特征和所述风格控制参数,对所述文本内容的合成语音参数进行调整,得到合成语音。
技术关键词
语义特征
风格
情感类别
个性化语音
自然语言
生成场景
情感分析模型
表征场景
场景分类
音频特征
模板
参数
分析模块
文本编码器
分词
标签
系统为您推荐了相关专利信息
语义结构
生成语句
大语言模型
数据库语句生成方法
语法结构