摘要
本申请公开了一种语音识别方法、装置、存储介质和程序产品,涉及人工智能技术领域,包括:通过前置的音频分类模型先识别待识别音频信号的目标语言类型,在识别语言类型的过程中,音频分类模型提取待识别音频信号的局部特征,并捕获待识别音频信号的全局特征,二者融合得到融合语音特征,克服了卷积神经网络在处理序列数据时的局限性,同时也弥补了局部信息,从而更准确地确定待识别音频信号的语言类型;多语言识别模型根据音频分类模型提供的目标语言类型,智能地选择最适宜的语言识别规则对待识别音频信号进行处理,解决了多语言识别模型在处理具有相似特征的语言时识别准确率低的问题,提高了语音识别的准确性和可靠性。
技术关键词
语音识别方法
音频
注意力
输出特征
前馈神经网络
信号
语音特征
多语言
残差网络
特征融合网络
编码块
变换器
语音采集模块
语音识别装置
元素
可读存储介质
文本
人工智能技术