一种语音生成方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202510660751

申请日期：2025-05-22

公开号：CN120199229A

公开日期：2025-06-24

类型：发明专利

摘要

本申请属于语音生成技术领域，涉及一种语音生成方法、装置、设备及其存储介质，通过获取目标文本序列的文本特征向量序列；获取目标视频帧序列的视觉特征向量序列；输入文本特征向量序列和视觉特征向量序列到跨模态融合层，获得跨模态融合层所输出的特征融合表示；根据特征融合表示获得变体声学模型所输出的声学特征；将所述声学特征输入到预设的声码器中，通过多尺度卷积和上采样处理，生成目标语音波形。实现在语音生成时不仅引入文本特征，还引入视频特征，以跨模态融合特征共同实现语音生成。将该方法应用到金融或者医疗业务智能客服回答，或者服务产品营销介绍场景中，实现了结合视觉上下文信息，生成更加自然真实的语音。

技术关键词

文本特征向量语音生成方法声学特征文本编码器序列视频帧跨模态重构计算机可读指令视觉波形视频采集编码器上下文特征语音生成技术声学模型训练图像全局特征图像局部特征注意力机制

系统为您推荐了相关专利信息

动力系统直齿轮动态啮合刚度的快速迭代计算方法及系统

迭代计算方法动力系统数字孪生模型刚度动态啮合力

核电厂严重事故下场外全范围辐射风险评价方法及系统

辐射风险评价方法核电厂严重事故风险评价系统效应气象

一种基于XGBoost融合算法的输电线路覆冰监测方法、系统、设备及介质

融合算法双线性气象计算机可执行指令时间域

基于数据驱动的电动汽车光储充电站配置方法

光储充电站日期储能系统序列数据

一种语义驱动的云盘静态负载预测方法和系统

负载预测方法未来负载预测矩阵样本特征选择

一种语音生成方法、装置、设备及其存储介质

站点导航

APP 下载