基于扩散模型的语音转换方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于扩散模型的语音转换方法、装置、设备及存储介质
申请号:CN202411535936
申请日期:2024-10-30
公开号:CN119601033A
公开日期:2025-03-11
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技领域,本发明公开了基于扩散模型的语音转换方法、装置、设备及存储介质,方法包括:获取扩散模型基于原始语音输出的第一梅尔频谱图,获取第二梅尔频谱图;基于第一梅尔频谱图,获取第一音高特征和第一梅尔频谱特征,基于第二梅尔频谱图,获取第二音高特征和第二梅尔频谱特征;获取第一音高特征和第二音高特征之间的第一损失值,获取第一梅尔频谱特征和第二梅尔频谱特征之间的第二损失值;基于第一损失值、第二损失值,获取训练后的扩散模型;获取训练后的扩散模型基于当前语音输出的第三梅尔频谱图,基于第三梅尔频谱图,生成当前语音对应的转换语音。本发明有利于提高当前语音的转换效率。
技术关键词
频谱特征 语音转换方法 语音转换器 文本 语音转换装置 输入解码器 可读存储介质 人工智能技术 处理器 声码器 模块 计算机设备 存储器 指令 金融
系统为您推荐了相关专利信息
1
一种图像生成模型训练方法及相关设备
图像生成模型 ID标签 文本 多视角 语义
2
一种多模态大语言模型生成电子元件封装的设计方法
电子元件封装 大语言模型 多模态 电子设计自动化 焊盘尺寸
3
语音评测方法、语音评测装置、电子设备和存储介质
语音评测方法 语音评测装置 主题 语义分析模型 文本
4
一种基于蒸馏的持续自监督多类型语音声学特征表示方法
谱图特征 语音声学特征 特征提取模型 语音特征提取 蒸馏
5
一种基于检索增强生成的光学知识大模型构建方法及大模型系统
模型构建方法 关键词 网页数据抓取 采集工具 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号