摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于音频提示的语音生成方法、装置、设备及介质,包括:获取目标文本和参考音频;通过预先训练的文本特征提取器对目标文本进行多层次特征提取得到多层次文本特征;根据参考音频生成相应的音频提示特征,并将多层次文本特征与音频提示特征进行拼接,得到拼接输入特征;将拼接输入特征输入到预先训练的语音生成模型中,生成目标文本对应的目标语音,语音生成模型是对预设的流模型进行语音掩码生成训练后得到的。通过将文本和语音进行特征拼接后输入到基于语音掩码生成训练得到的模型中进行语音生成,无需在文本与语音之间进行额外的复杂操作,提高了语音生成效率。
技术关键词
语音生成方法
语音生成模型
多层次特征提取
文本
音频
非易失性计算机可读存储介质
样本
生成语音
计算机可执行指令
掩码策略
采样率
噪声频谱
人工智能技术
医疗健康
拼接模块
声码器
处理器通信
系统为您推荐了相关专利信息
电网营销数据
大语言模型
标注方法
答案
调用API接口
大语言模型
笔记本
文本检索方法
句式结构
聚类算法
人机互动方法
情绪识别模型
情感特征
文本特征向量
语音