基于语音令牌融合的语音合成方法、装置、设备及介质

正文

推荐专利

申请号：CN202511218871

申请日期：2025-08-28

公开号：CN121034278A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及语音语义技术领域，可应用于金融科技、医疗健康等业务系统平台中，揭露了一种基于语音令牌融合的语音合成方法、装置、设备及介质，所述方法包括：获取初始文本，将所述初始文本转换为初始潜在表示，并对所述初始潜在表示进行文本编码，得到目标文本特征；根据所述目标文本特征生成所述初始文本对应的语义令牌，并对所述语义令牌与所述目标文本特征进行时序对齐，得到目标语义令牌；获取参考用户的用户语音，提取所述用户语音的音色特征，根据所述音色特征和所述目标语义令牌逐帧生成梅尔频谱图；根据所述梅尔频谱图进行语音合成，得到目标语音。本发明可以提高语音合成效率和质量。

技术关键词

令牌音色特征文本时序频谱特征参数语音语义技术序列波形时域特征融合特征层级处理器置信度阈值编码错位医疗健康变换算法

系统为您推荐了相关专利信息

基于AI预测的卫星信道干扰抑制与4K信号增强系统及方法

信道干扰抑制策略分析单元接收端发射端

基于大数据与人工智能的农户创业融资风险评估系统

融资风险评估融资数据参数样本聚类

一种基于语义一致性的开放词汇视听分割方法

音频特征视觉特征语义跨模态视听

基于检索增强生成的多模态事实核查方法

多模态语义特征文本融合特征多任务学习模型

用于应届生简历筛选的大语言模型训练方法及其应用方法

语言模型训练方法大语言模型计算机程序指令数据简历筛选方法

基于语音令牌融合的语音合成方法、装置、设备及介质

站点导航

APP 下载