摘要
本发明涉及人工智能技术领域,可应用于金融科技领域,本发明公开了基于扩散模型的语音转换方法、装置、设备及存储介质,方法包括:获取扩散模型基于原始语音输出的第一梅尔频谱图,获取第二梅尔频谱图;基于第一梅尔频谱图,获取第一音高特征和第一梅尔频谱特征,基于第二梅尔频谱图,获取第二音高特征和第二梅尔频谱特征;获取第一音高特征和第二音高特征之间的第一损失值,获取第一梅尔频谱特征和第二梅尔频谱特征之间的第二损失值;基于第一损失值、第二损失值,获取训练后的扩散模型;获取训练后的扩散模型基于当前语音输出的第三梅尔频谱图,基于第三梅尔频谱图,生成当前语音对应的转换语音。本发明有利于提高当前语音的转换效率。
技术关键词
频谱特征
语音转换方法
语音转换器
文本
语音转换装置
输入解码器
可读存储介质
人工智能技术
处理器
声码器
模块
计算机设备
存储器
指令
金融
系统为您推荐了相关专利信息
电子元件封装
大语言模型
多模态
电子设计自动化
焊盘尺寸
语音评测方法
语音评测装置
主题
语义分析模型
文本
谱图特征
语音声学特征
特征提取模型
语音特征提取
蒸馏
模型构建方法
关键词
网页数据抓取
采集工具
文本