摘要
本申请提供一种显示设备及语音拒识方法,所述方法响应于用户输入的语音指令,控制显示器在用户对话界面中显示交互对话内容。获取用户基于交互对话内容输入的反馈对话音频并进行语音识别,得到反馈对话文本。根据反馈对话音频的声学特征生成语音特征向量,以及,对反馈对话文本执行语义识别,得到语义特征向量,并拼接语音特征向量和语义特征向量,得到语义特征向量。将前后两轮对话中的语义特征向量输入拒识模型,在拒识得分小于得分阈值时拒识反馈对话音频。本申请通过对语音特征向量和语义特征向量进行拼接,在拒识的过程中结合语义理解和语音特征,并根据前后对话轮次中语义声学向量输出拒识得分,提高判断拒识的准确性。
技术关键词
显示设备
声学特征
音频
拒识方法
文本
生成语音
执行语音识别
梅尔倒谱系数
注意力机制
声音采集器
样本
控制器
语义向量
标签数据库
序列
控制显示器
界面