基于扩散模型的语音转换方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411535936

申请日期：2024-10-30

公开号：CN119601033A

公开日期：2025-03-11

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技领域，本发明公开了基于扩散模型的语音转换方法、装置、设备及存储介质，方法包括：获取扩散模型基于原始语音输出的第一梅尔频谱图，获取第二梅尔频谱图；基于第一梅尔频谱图，获取第一音高特征和第一梅尔频谱特征，基于第二梅尔频谱图，获取第二音高特征和第二梅尔频谱特征；获取第一音高特征和第二音高特征之间的第一损失值，获取第一梅尔频谱特征和第二梅尔频谱特征之间的第二损失值；基于第一损失值、第二损失值，获取训练后的扩散模型；获取训练后的扩散模型基于当前语音输出的第三梅尔频谱图，基于第三梅尔频谱图，生成当前语音对应的转换语音。本发明有利于提高当前语音的转换效率。

技术关键词

频谱特征语音转换方法语音转换器文本语音转换装置输入解码器可读存储介质人工智能技术处理器声码器模块计算机设备存储器指令金融

系统为您推荐了相关专利信息

一种图像生成模型训练方法及相关设备

图像生成模型 ID标签文本多视角语义

一种多模态大语言模型生成电子元件封装的设计方法

电子元件封装大语言模型多模态电子设计自动化焊盘尺寸

语音评测方法、语音评测装置、电子设备和存储介质

语音评测方法语音评测装置主题语义分析模型文本

一种基于蒸馏的持续自监督多类型语音声学特征表示方法

谱图特征语音声学特征特征提取模型语音特征提取蒸馏

一种基于检索增强生成的光学知识大模型构建方法及大模型系统

模型构建方法关键词网页数据抓取采集工具文本

基于扩散模型的语音转换方法、装置、设备及存储介质

站点导航

APP 下载