音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品

正文

推荐专利

申请号：CN202510828122

申请日期：2025-06-19

公开号：CN120356465B

公开日期：2025-09-19

类型：发明专利

摘要

本公开涉及语音识别技术领域，尤其涉及一种音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品。所述方法包括：获得语音识别模型和大型语言模型；语音识别模型包括编码模块、预测模块和第一融合模块；根据编码模块、大型语言模型主体、第一融合模块和二分类层，构建音频文本分类模型；第一融合模块和二分类层根据编码模块输出的声学特征或者大型语言模型主体输出的语义特征得到模态预测结果；根据真实模态确定第一融合模块的反转梯度值并更新第一融合模块的参数；响应于满足预设条件，根据编码模块、大型语言模型主体和第二融合模块，构建音频理解模型并训练，其中，第二融合模块包括第一融合模块。本公开能够提升音频理解的精度。

技术关键词

模型主体编码模块音频语音识别模型声学特征语义特征文本分类模型训练计算机可读代码融合特征计算机程序指令训练装置序列参数处理器语音识别技术可读存储介质样本

系统为您推荐了相关专利信息

一种基于数字人交互的展厅展示方法、装置、设备和介质

展示方法图片音频展厅展示装置文本

一种语音生成方法、装置、计算机设备及存储介质

语音生成方法语音合成器计算机可读指令文本声学特征

多模态水下生物入侵检测方法及装置

网格生成对抗网络模态特征声学设备图像设备

视频处理方法、装置、可读存储介质和程序产品

视觉文本语义分析字幕视频观点

晶体结构预测模型的训练、预测方法、装置、设备及介质

晶面射线晶体编码模块状态空间模型

音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品

站点导航

APP 下载