音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品

正文

推荐专利

申请号：CN202510779304

申请日期：2025-06-11

公开号：CN120544542B

公开日期：2025-11-18

类型：发明专利

摘要

本公开涉及一种音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品。所述方法包括：获得预训练的语音识别模型和大型语言模型；语音识别模型包括编码模块、预测模块和第一融合模块；根据语音识别模型和大型语言模型，构建音频理解模型，其中，音频理解模型包括编码模块、大型语言模型主体和第二融合模块；通过编码模块提取音频样本对应的声学特征序列，通过大型语言模型主体提取音频样本对应的语义特征序列；通过第二融合模块基于声学特征序列和语义特征序列，确定能够生成音频样本对应的目标文本标签序列的所有有效对齐路径，并计算所有有效对齐路径的总概率；根据总概率，更新音频理解模型的参数。本公开能够提升语音识别的精度。

技术关键词

音频语音识别模型模型主体编码模块声学特征语义特征序列样本训练装置文本参数处理器存储器标签计算机程序产品输出模块可读存储介质训练集

系统为您推荐了相关专利信息

一种人体皮肤汗腺三维形貌获取的方法、系统及电子设备

三维形貌获取方法注意力解码模块光学相干层析系统编码模块

一种多任务学习方法、装置、计算机设备及程序产品

多任务学习模型多任务学习方法核心生成训练样本计算机设备

一种声纹识别方法及声纹识别系统

声纹识别系统声纹识别方法声纹特征存储模块音频

基于机器视觉的基板玻璃表面缺陷自动检测方法及系统

玻璃表面缺陷自动检测方法多任务学习网络拓扑特征像素

基于时空状态选择的发动机剩余使用寿命预测方法及系统

剩余使用寿命预测状态空间模型航空发动机传感器嵌入位置信息滑动时间窗口

音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品

站点导航

APP 下载