摘要
本发明涉及语音合成技术领域,具体是一种语料训练库跨平台调用方法及系统,包括获取待合成音频的文本内容并拆解得到停顿位置序列,根据预设语言标识选择对应语料训练库,提取字符音素发音时长计算基础音素时长。通过情感分类模型识别文本情感特征,构建包含情感密度、情感方差和分布熵的三维情感特征向量,据此确定音素第一调整系数对基础音素时长进行修正。当修正音素时长与目标音频时长存在差值时,差值为正数时对音素进行压缩处理,差值为负数时运用遗传算法生成最优的音素第二调整系数序列和停顿时长序列。本发明解决预设音频长度下的语速和停顿时长优化问题。
技术关键词
跨平台调用方法
序列
音频
字符
发音
情感分类模型
文本
遗传算法
情感词典
参数
数值
平滑度
强度
密度
基础
索引
情感特征
变量
标识
分词
系统为您推荐了相关专利信息
环境感知数据
融合特征
共享单车调度方法
分层强化学习
动态变化特征