语音生成方法、装置、设备、存储介质及产品

正文

推荐专利

申请号：CN202411585657

申请日期：2024-11-06

公开号：CN119479609A

公开日期：2025-02-18

类型：发明专利

摘要

本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括：提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。

技术关键词

声学特征语音生成模型训练场景生成语音预测特征语音生成方法机器学习模型图像变换文本场景类别语音信号特征音效参数数据语音类别发音计算机程序产品

系统为您推荐了相关专利信息

语音处理方法、装置、设备、介质及产品

声学特征语音解码器文本模式语义特征

一种水下声呐和光学图像特征融合方法及系统

声学特征水下声呐特征融合方法特征融合系统特征融合网络

AI语音防褥疮减压气垫、控制方法、设备和气垫床

腔体语音指令控制 AI语音褥疮气泵

一种复合板的检测方法及系统

超声波扫描数据空间分布信息复合板应力场声学特征

一种基于多尺度卷积注意力的林草变化检测方法

变化检测方法预测特征变化检测模型上采样编码器

语音生成方法、装置、设备、存储介质及产品

站点导航

APP 下载