语音对话及声纹克隆方法、装置、设备及介质

正文

推荐专利

申请号：CN202511228748

申请日期：2025-08-29

公开号：CN120877738A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及语音合成技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了一种语音对话及声纹克隆方法、装置、设备及介质，包括：获取用户的语音输入数据，将所述语音输入数据转换为文本数据，利用预先训练的大语言模型根据所述文本数据生成回复文本，获取所述回复文本中每个文本Token所包含的隐藏状态，根据所述回复文本以及所述隐藏状态构建上下文感知序列，获取用户预先选取的声纹样本的声纹特征，利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱，将所述梅尔频谱转换为音频数据，得到回复音频，向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。

技术关键词

文本克隆方法声纹特征序列感知线性预测编码特征梅尔频率倒谱系数动态时间规整算法音频特征语音特征特征提取模型可读存储介质波形大语言模型信号医疗健康数据获取模块

系统为您推荐了相关专利信息

一种靶向多肽及其应用

多肽基因表达载体核酸分子药物组合物细胞穿膜肽

一种智能负荷识别模型的处理方法和装置

分类预测模型序列负荷高频特征时序特征

数据处理方法、装置、设备和存储介质

自然语言文本大语言模型数据处理方法返回错误信息执行器

一种基于抄催工单自动分类的抄催任务管理方法

管理方法 SVM算法归因业务词库词语

大语言模型生成文本检测方法、系统、设备及存储介质

文本编码器文本检测方法大语言模型检测器对齐模块

语音对话及声纹克隆方法、装置、设备及介质

站点导航

APP 下载