语音生成方法和装置、计算机设备及存储介质

AITNT
正文
推荐专利
语音生成方法和装置、计算机设备及存储介质
申请号:CN202411506072
申请日期:2024-10-25
公开号:CN119339707B
公开日期:2025-11-25
类型:发明专利
摘要
本申请实施例提供了一种语音生成方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:通过原始语音转换模型对原始语音数据进行语音特征提取得到参考语音特征和选定语音特征,参考语音特征具有目标对象声音风格;将参考语音特征和选定语音特征进行相似度度量得到特征相似度数据;根据特征相似度数据对选定语音特征筛选得到目标语音特征;其中,目标语音特征不具有目标对象声音风格;根据目标语音特征、参考语音特征和训练文本对原始语音生成模型进行模型训练得到目标语音生成模型;通过目标语音生成模型和目标文本生成目标语音数据。本申请实施例能够提高语音生成的稳定性,并减少参考音频的依赖,提高语音生成的灵活性。
技术关键词
语音生成模型 语音特征提取 语音生成方法 语音编码器 文本编码器 语义解析信息 数据 对象识别 计算机设备 风格 特征提取器 度量 模型训练模块 可读存储介质 分词
系统为您推荐了相关专利信息
1
一种基于图网络引导的医学图像信息对齐方法、设备及介质
医学图像信息 对齐方法 交叉注意力机制 节点 图像编码器
2
基于音频提示的语音生成方法、装置、设备及介质
语音生成方法 语音生成模型 多层次特征提取 文本 音频
3
基于多模态大模型微调的证件伪造识别方法及系统
证件图片 伪造识别方法 多模态 深度学习网络 基础
4
一种基于多模态提示的遥感图像指代分割方法及系统
多模态 文本编码器 分割方法 图像编码器 解码器
5
一种基于幻觉增强的跨模态检索模型优化系统及方法
文本特征向量 图像特征向量 模型优化系统 文本编码器 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号