摘要
本申请一些实施例提供一种终端设备及语音应答方法,所述方法可以响应于语音交互指令,获取语音交互指令对应的源音频数据。再根据源音频数据的音频单元生成特征向量,并基于音频嵌入算法计算特征向量的语音向量。拼接特征向量和语义向量,以生成第一融合向量。再根据第一融合向量预测第二融合向量,并按照第二融合向量生成应答音频数据,以及控制音频输出装置播放应答音频数据。其中,应答音频数据基于端到端音频输出模型生成,端到端音频输出模型的输入为第二融合向量。所述方法通过端到端的音频输入及输出,根据源音频数据中多维度特征生成相应的应答音频数据,可减少源音频数据的信息丢失,提高应答音频数据中音频特征的可靠性。
技术关键词
特征提取模型
音频编码
语音应答方法
生成特征向量
语义向量
序列
终端设备
音频单元
数据
基准
频谱特征
控制音频输出装置
注意力机制
控制器
执行傅里叶变换
标记
切片
系统为您推荐了相关专利信息
识别预警方法
压缩特征向量
存储结构
支持向量机算法
场景
音效生成方法
自然语言文本
语义向量
音频
频谱特征
形态学特征
时序
特征提取方法
特征提取模型
生物