基于深度学习的用户音色克隆与语音合成方法及装置

AITNT
正文
推荐专利
基于深度学习的用户音色克隆与语音合成方法及装置
申请号:CN202510532836
申请日期:2025-04-25
公开号:CN120340457A
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了基于深度学习的用户音色克隆与语音合成方法及装置,涉及语音识别应用技术领域,包括:采集用户的语音数据;从所述语音数据中提取与用户对应的音色特征;采用迁移学习技术训练个性化的音色模型,得到训练好的音色模型;获取需要朗读的绘本内容,提取所述绘本内容中包含情感及节奏关键信息;根据提取的所述绘本内容中包含情感及节奏关键信息,动态调整语音合成的各播放参数;将需要朗读的绘本内容输入至已训练好的音色模型进行语音合成,并结合所述调整好的语音合成的各播放参数,对合成后的语音进行调整后输出。本发明能够根据具体用户的音色特征进行个性化克隆,提供更加自然、逼真的语音合成效果,为用户的使用提供了方便。
技术关键词
音色特征 语音 迁移学习技术 深度学习算法 非临时性计算机可读存储介质 数据 参数 动态 模型训练模块 文本 特征提取模块 电子设备 目录 智能终端 程序 存储器 麦克风 处理器 账户
系统为您推荐了相关专利信息
1
基于大语言模型的双重预防智能交互系统
预防智能 大语言模型 交互系统 知识库管理 生成答案
2
文本数据生成方法、装置、设备、介质和程序产品
梅尔频率倒谱系数 生成特征向量 文本数据生成方法 语音 动态解码
3
一种用于多模态大模型预训练的动态数据增强方法
模型预训练 语音播放速度 大语言模型 多模态数据融合 动态
4
一种语音信号处理方法、装置及设备
语音信号处理方法 扬声器 数字麦克风 声学回声消除器 音频设备
5
模型训练方法、服务器和计算机可读存储介质
大语言模型 语音 数据 接口 列表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号