摘要
本发明涉及语音合成技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种语音对话及声纹克隆方法、装置、设备及介质,包括:获取用户的语音输入数据,将所述语音输入数据转换为文本数据,利用预先训练的大语言模型根据所述文本数据生成回复文本,获取所述回复文本中每个文本Token所包含的隐藏状态,根据所述回复文本以及所述隐藏状态构建上下文感知序列,获取用户预先选取的声纹样本的声纹特征,利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱,将所述梅尔频谱转换为音频数据,得到回复音频,向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。
技术关键词
文本
克隆方法
声纹特征
序列
感知线性预测
编码特征
梅尔频率倒谱系数
动态时间规整算法
音频特征
语音特征
特征提取模型
可读存储介质
波形
大语言模型
信号
医疗健康
数据获取模块
系统为您推荐了相关专利信息
多肽
基因表达载体
核酸分子
药物组合物
细胞穿膜肽
自然语言文本
大语言模型
数据处理方法
返回错误信息
执行器
文本编码器
文本检测方法
大语言模型
检测器
对齐模块