摘要
本公开涉及一种音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品。所述方法包括:获得预训练的语音识别模型和大型语言模型;语音识别模型包括编码模块、预测模块和第一融合模块;根据语音识别模型和大型语言模型,构建音频理解模型,其中,音频理解模型包括编码模块、大型语言模型主体和第二融合模块;通过编码模块提取音频样本对应的声学特征序列,通过大型语言模型主体提取音频样本对应的语义特征序列;通过第二融合模块基于声学特征序列和语义特征序列,确定能够生成音频样本对应的目标文本标签序列的所有有效对齐路径,并计算所有有效对齐路径的总概率;根据总概率,更新音频理解模型的参数。本公开能够提升语音识别的精度。
技术关键词
音频
语音识别模型
模型主体
编码模块
声学特征
语义特征
序列
样本
训练装置
文本
参数
处理器
存储器
标签
计算机程序产品
输出模块
可读存储介质
训练集
系统为您推荐了相关专利信息
三维形貌获取方法
注意力
解码模块
光学相干层析系统
编码模块
多任务学习模型
多任务学习方法
核心
生成训练样本
计算机设备
声纹识别系统
声纹识别方法
声纹特征
存储模块
音频
玻璃表面缺陷
自动检测方法
多任务学习网络
拓扑特征
像素
剩余使用寿命预测
状态空间模型
航空发动机传感器
嵌入位置信息
滑动时间窗口