语音生成方法、装置、设备、存储介质及产品

AITNT
正文
推荐专利
语音生成方法、装置、设备、存储介质及产品
申请号:CN202411585657
申请日期:2024-11-06
公开号:CN119479609A
公开日期:2025-02-18
类型:发明专利
摘要
本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品,该方法包括:提取待处理文本的文本特征,并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系,对该场景图像特征进行映射处理,得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征,生成与待处理文本相对应,且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素,在能传达预期信息的同时,还能准确反映场景图像所对应的场景,使得生成的语音更具沉浸感和真实感,在一定程度上提高了语音生成的效果。
技术关键词
声学特征 语音生成模型 训练场景 生成语音 预测特征 语音生成方法 机器学习模型 图像 变换文本 场景类别 语音信号特征 音效 参数 数据 语音类别 发音 计算机程序产品
系统为您推荐了相关专利信息
1
语音处理方法、装置、设备、介质及产品
声学特征 语音解码器 文本 模式 语义特征
2
一种水下声呐和光学图像特征融合方法及系统
声学特征 水下声呐 特征融合方法 特征融合系统 特征融合网络
3
AI语音防褥疮减压气垫、控制方法、设备和气垫床
腔体 语音指令控制 AI语音 褥疮 气泵
4
一种复合板的检测方法及系统
超声波扫描数据 空间分布信息 复合板 应力场 声学特征
5
一种基于多尺度卷积注意力的林草变化检测方法
变化检测方法 预测特征 变化检测模型 上采样 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号