音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品

AITNT
正文
推荐专利
音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品
申请号:CN202510828122
申请日期:2025-06-19
公开号:CN120356465B
公开日期:2025-09-19
类型:发明专利
摘要
本公开涉及语音识别技术领域,尤其涉及一种音频理解模型的训练方法、音频理解方法、装置、存储介质和程序产品。所述方法包括:获得语音识别模型和大型语言模型;语音识别模型包括编码模块、预测模块和第一融合模块;根据编码模块、大型语言模型主体、第一融合模块和二分类层,构建音频文本分类模型;第一融合模块和二分类层根据编码模块输出的声学特征或者大型语言模型主体输出的语义特征得到模态预测结果;根据真实模态确定第一融合模块的反转梯度值并更新第一融合模块的参数;响应于满足预设条件,根据编码模块、大型语言模型主体和第二融合模块,构建音频理解模型并训练,其中,第二融合模块包括第一融合模块。本公开能够提升音频理解的精度。
技术关键词
模型主体 编码模块 音频 语音识别模型 声学特征 语义特征 文本分类模型训练 计算机可读代码 融合特征 计算机程序指令 训练装置 序列 参数 处理器 语音识别技术 可读存储介质 样本
系统为您推荐了相关专利信息
1
一种基于数字人交互的展厅展示方法、装置、设备和介质
展示方法 图片 音频 展厅展示装置 文本
2
一种语音生成方法、装置、计算机设备及存储介质
语音生成方法 语音合成器 计算机可读指令 文本 声学特征
3
多模态水下生物入侵检测方法及装置
网格 生成对抗网络 模态特征 声学设备 图像设备
4
视频处理方法、装置、可读存储介质和程序产品
视觉 文本语义分析 字幕 视频 观点
5
晶体结构预测模型的训练、预测方法、装置、设备及介质
晶面 射线 晶体 编码模块 状态空间模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号