语音合成模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
语音合成模型的训练方法、装置、设备及介质
申请号:CN202511053340
申请日期:2025-07-29
公开号:CN120708596A
公开日期:2025-09-26
类型:发明专利
摘要
本发明涉及人工智能领域,可应用于金融、医疗领域,本发明公开了一种语音合成模型的训练方法、装置、设备及介质,该方法包括利用预训练的自动语音识别模型对帧级声学特征序列进行语音识别,得到音素可能性矩阵;根据预设的音素持续时间对齐策略和音素可能性矩阵得到对应的目标音素序列和音素持续时间序列;基于风格特征序列、目标音素序列和音素持续时间序列,通过预设的语音合成模型获取目标声学特征序列;根据帧级声学特征序列、目标声学特征序列和预设的语音合成损失函数获得的语音合成损失对语音合成模型的参数进行调整。本发明基于准确的音素持续时间对语音合成模型进行训练,提高了模型的音素时长对齐精度,提高语音合成质量。
技术关键词
声学特征 序列 自动语音识别 矩阵 编码器 语音特征提取 语音识别单元 策略 处理器 可读存储介质 适配器 元素 训练装置 信号 计算机设备 风格 存储器 参数
系统为您推荐了相关专利信息
1
基于深度学习算法的再生水水质预测方法和系统
水质检测数据 深度学习算法 水质预测方法 节点特征 水质预测系统
2
智能多无人机协同任务执行调度系统及方法
多无人机协同 执行调度方法 空间点云数据 网格 特征点描述符
3
一种用于智能交通的数据可视化处理方法
街道 数据可视化 智能交通 纹理 Snake模型
4
一种语言驱动的物体抓取姿态预测方法、终端及存储介质
姿态预测方法 掩膜 图像编码器 图像嵌入 注意力编码器
5
基于多自由度机械臂的逆运动学解算与自碰撞检测方法
多自由度机械 碰撞检测方法 关键点 坐标系 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号