一种语音生成方法、装置、设备及其存储介质

AITNT
正文
推荐专利
一种语音生成方法、装置、设备及其存储介质
申请号:CN202510660751
申请日期:2025-05-22
公开号:CN120199229A
公开日期:2025-06-24
类型:发明专利
摘要
本申请属于语音生成技术领域,涉及一种语音生成方法、装置、设备及其存储介质,通过获取目标文本序列的文本特征向量序列;获取目标视频帧序列的视觉特征向量序列;输入文本特征向量序列和视觉特征向量序列到跨模态融合层,获得跨模态融合层所输出的特征融合表示;根据特征融合表示获得变体声学模型所输出的声学特征;将所述声学特征输入到预设的声码器中,通过多尺度卷积和上采样处理,生成目标语音波形。实现在语音生成时不仅引入文本特征,还引入视频特征,以跨模态融合特征共同实现语音生成。将该方法应用到金融或者医疗业务智能客服回答,或者服务产品营销介绍场景中,实现了结合视觉上下文信息,生成更加自然真实的语音。
技术关键词
文本特征向量 语音生成方法 声学特征 文本编码器 序列 视频帧 跨模态 重构 计算机可读指令 视觉 波形 视频采集编码器 上下文特征 语音生成技术 声学模型训练 图像全局特征 图像局部特征 注意力机制
系统为您推荐了相关专利信息
1
动力系统直齿轮动态啮合刚度的快速迭代计算方法及系统
迭代计算方法 动力系统 数字孪生模型 刚度 动态啮合力
2
核电厂严重事故下场外全范围辐射风险评价方法及系统
辐射风险评价方法 核电厂严重事故 风险评价系统 效应 气象
3
一种基于XGBoost融合算法的输电线路覆冰监测方法、系统、设备及介质
融合算法 双线性 气象 计算机可执行指令 时间域
4
基于数据驱动的电动汽车光储充电站配置方法
光储充电站 日期 储能系统 序列 数据
5
一种语义驱动的云盘静态负载预测方法和系统
负载预测方法 未来负载预测 矩阵 样本 特征选择
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号