基于残差量化的语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于残差量化的语音生成方法、装置、设备及介质
申请号:CN202510347070
申请日期:2025-03-24
公开号:CN120199225A
公开日期:2025-06-24
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于残差量化的语音生成方法、装置、设备及介质,包括:获取待生成语音的目标文本;将目标文本输入到文本风格预测器中,对目标文本进行文本编码与风格预测处理,获得文本特征与风格向量;对风格向量进行残差向量量化处理,将风格向量压缩为风格离散码;对风格离散码进行解码处理,将风格解码结果和文本特征输入到语音生成模型中进行联合语音生成预测,生成风格语音特征;对风格语音特征进行解码处理,生成目标文本的风格语音。通过以目标文本控制合成语音的风格,提高风格控制的灵活性,并通过残差向量量化处理捕捉更加精细的风格信息,提高语音风格的合成效果。
技术关键词
风格 语音生成方法 语音生成模型 语音特征 非易失性计算机可读存储介质 解码 生成语音 计算机可执行指令 文本编码器 码字 样本 分类器 融合特征 量化器 处理器 级联 人工智能技术
系统为您推荐了相关专利信息
1
一种基于人工智能生成内容的文本处理方法及系统
文本处理方法 掩码矩阵 风格 编码向量 关键词
2
一种人工智能驱动的计算机智能写作系统
人工智能驱动 智能写作 模块运行时间 风格 数据采集模块
3
问答模型训练方法、装置、电子设备及存储介质
答案 问答模型训练方法 指标 样本 非易失性计算机可读存储介质
4
一种基于对比学习分解多视觉任务的图像转换方法
图像转换方法 生成器网络 样本 三元组损失函数 多视觉
5
利用文本提示与图像生成技术进行数据增强的方法
图像生成技术 文本 噪声图像 数据 计算机视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号