摘要
本公开提供了一种目标音频生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及计算机领域,尤其涉及人工智能、深度学习、自然语言处理技术领域。实现方案为:获取参考音频、参考文本和目标文本;基于将参考音频进行特征离散化,获得参考音频声学标记序列和参考音频语义标记序列;将目标文本和参考文本分别进行特征离散化以获得各自对应的文本语义标记序列;基于文本语义标记序列、参考音频语义标记序列,通过第一生成式语言模型获得目标音频语义标记序列;基于参考音频语义标记序列、目标音频语义标记序列和参考音频声学标记序列,通过第二生成式语言模型获得目标音频声学标记序列;基于目标音频声学标记序列解码得到目标音频。
技术关键词
标记
序列
文本
语义向量
音频生成方法
音频特征
标签
索引
解码
计算机程序产品
模型训练装置
模型训练方法
电子设备
处理器
可读存储介质
处理单元
生成智能
系统为您推荐了相关专利信息
信息提取模型
线下
识别方法
数据
计算机可读指令