摘要
本申请涉及数据处理领域,尤其涉及一种音频数据处理方法及装置。该方法包括:获取第一音频数据;第一音频数据中包括人类与人工智能语音系统之间的对话录音。从第一音频数据中划分出第二音频数据和第三音频数据。第二音频数据中包括人类和人工智能语音系统同时出声的部分,第三音频数据中包括人类单独出声的部分。将第二音频数据输入第一模型,得到第一模型输出的第四音频数据;第一模型为:用于去除人工智能语音系统出声的部分的深度神经网络模型。将第四音频数据输入第二模型,得到第二模型输出的第五音频数据。第二模型为:用于去除人工智能语音系统出声的部分的长短期记忆网络模型。拼接第五音频数据和所述第三音频数据,得到第六音频数据。
技术关键词
人工智能语音
音频数据处理方法
深度神经网络模型
音频数据处理装置
长短期记忆网络
人类
训练样本集
卷积循环网络
计算机程序产品
语音活动检测
可读存储介质
存储计算机程序
终端设备
存储器
处理器
服务器