一种文本转语音的合成方法、装置、设备及介质

AITNT
正文
推荐专利
一种文本转语音的合成方法、装置、设备及介质
申请号:CN202511120112
申请日期:2025-08-11
公开号:CN121011170A
公开日期:2025-11-25
类型:发明专利
摘要
本发明涉及数据处理技术领域,公开一种文本转语音的合成方法、装置、设备及介质,可应用于金融、医疗领域,该方法包括利用文本数据生成对应的文本语义向量并生成起始样本点;基于起始样本点进行一致性流匹配建模处理,得到速度场;基于速度场迭代更新起始样本点,生成目标语音表示向量;对目标语音表示向量进行频谱解码处理,并输入至声码器模型,生成对应的语音波形数据。在本发明中,针对现有的TTS模型在低步数推理下语音合成速度慢、一致性差的问题,可以引入一致性流匹配建模技术,在构建速度场的基础上实现起始样本点的低步数迭代更新,同时结合频谱解码与声码器建模过程,如此,提高了语音合成过程中的一致性以及合成速度。
技术关键词
语音 语义向量 文本 样本 随机噪声 速度 多层前馈神经网络 波形 声学特征 序列 语义特征 可读存储介质 编码 数据处理技术 解码网络 建模技术 轨迹 处理器
系统为您推荐了相关专利信息
1
一种基于再生约束监督深度学习模型的结构振动响应重建方法
监督深度学习 结构振动响应 掩码矩阵 生成训练样本 标签
2
工业图像自动标注方法、装置、设备和存储介质
图像自动标注方法 术语 迭代特征 文本特征向量 样本
3
一种基于大模型的中药分类方法
文本实体识别 中药 数据 标签 分类方法
4
变电站接地引下线接地性能在线监测系统及方法
接地引下线 无线传感器模块 在线监测系统 监测终端 神经网络模型
5
零样本离线逆向强化学习多智能体泛用协作方法
策略 协作方法 度量 校正 拉格朗日
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号