摘要
本公开涉及语音识别技术领域,尤其涉及一种音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品。所述方法包括:获得语音识别模型和大型语言模型;语音识别模型包括编码模块、预测模块和第一融合模块;根据编码模块、大型语言模型主体、第一融合模块和二分类层,构建音频文本分类模型;第一融合模块和二分类层根据编码模块输出的声学特征或者大型语言模型主体输出的语义特征得到模态预测结果;根据真实模态确定第一融合模块的反转梯度值并更新第一融合模块的参数;响应于满足预设条件,根据编码模块、大型语言模型主体和第二融合模块,构建音频理解模型并训练,其中,第二融合模块包括第一融合模块。本公开能够提升音频理解的精度。
技术关键词
模型主体
编码模块
音频
语音识别模型
声学特征
语义特征
文本分类模型训练
计算机可读代码
融合特征
计算机程序指令
训练装置
序列
参数
处理器
语音识别技术
可读存储介质
样本
系统为您推荐了相关专利信息
语音生成方法
语音合成器
计算机可读指令
文本
声学特征