摘要
本发明涉及人工智能技术领域,可应用于金融科技领域,本发明公开了基于自回归模型的语音克隆方法、装置、设备及存储介质,方法包括:对预设参考语音进行自监督特征提取,得到第一特征向量,对预设参考语音进行风格特征提取,得到第二特征向量,对原始文本进行文本特征提取,得到第三特征向量;基于第一特征向量、第二特征向量、第三特征向量,确定原始文本对应的模拟语音;获取模拟语音和预设参考语音之间的损失值,基于损失值,训练自回归模型;通过训练后的自回归模型,对当前参考语音进行自监督特征提取,得到第四特征向量,对第四特征向量进行处理,生成当前文本对应的克隆语音。本发明能生成个性化的克隆语音,有利于满足应用需求。
技术关键词
语音
克隆方法
文本
音频特征
风格
解码器
编码器
可读存储介质
人工智能技术
处理器
模块
计算机设备
页面
存储器
指令
金融
系统为您推荐了相关专利信息
AI算法
分析方法
智能推荐系统
图像识别技术
智能语音交互系统
对话系统
自然语言
多模态信息
画像
生成推荐信息
XGBoost模型
图谱特征
语义向量
多阶段特征
动态