摘要
本申请实施例属于研发设计及音频处理技术领域,应用于音频生成场景中,涉及一种音频生成方法、装置、设备及其存储介质,通过获取进行音频生成的目标文本数据;将目标文本数据输入到预训练完成的音频生成器中;识别通过人机交互方式所获取的尺度选择指令;基于所述尺度选择指令,获得所述音频生成器所输出的期望音频数据。将本申请所述音频生成方法,应用到多尺度音频生成场景下,尤其是在多语种广播或者智能语音客服回访场景下,能够根据音频语种、音频时间、音频频率范围的差异,生成更加细节和高质量的多语种译音,更加自动化和智能化,且为不同语种的客户提供更加国际化的广播或问询服务。
技术关键词
音频生成方法
声学特征
多尺度特征提取
情感特征
人机交互方式
多时间尺度
计算机可读指令
频率
文本
生成机制
智能语音客服
生成场景
生成方式
数据输入模块
系统为您推荐了相关专利信息
电力负载预测方法
大语言模型
特征提取模块
原型
多尺度特征提取
情绪状态信息
客户
服务推荐方法
语音识别模型
声学特征
医学影像数据
血管分割方法
肾脏
深层特征提取
浅层特征提取
农作物遥感分类方法
多尺度特征提取
图像
可见光
标签