一种基于AI大模型架构的混合语音识别方法及系统

正文

推荐专利

申请号：CN202511020356

申请日期：2025-07-23

公开号：CN120977296A

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供在一种基于AI大模型架构的混合语音识别方法及系统，方法包括：构建包含传统ASR系统和AI大模型的ASR系统的混合体系；基于大量无标注音频数据，通过自监督学习对大模型预训练，挖掘音频信号特征，对AI大模型进行有监督微调；在基础层利用交叉熵损失训练文本输出；在中间层或辅助头引入声学建模分支，采用CTC损失函数训练声学输出；联合CTC损失函数与交叉熵损失训练实现声学与文本信息融合；在模型训练或推理阶段，采用音频分块方式及KV缓存技术实现高效流式识别；支持边说边出识别结果，发话结束后，大模型基于所有缓存信息迅速完成后续自回归文本推理，输出高精度识别文本。本发明实现高精度与流式体验的兼容。

技术关键词

混合语音识别方法音频分块文本解码模型缓存技术分词线性预测倒谱系数梅尔频率倒谱系数语音识别场景数据序列人类 ASR系统语音识别系统特征提取能力中间层强化学习算法模型预训练

系统为您推荐了相关专利信息

一种面向航天控制软件表格数据的序列化处理和检索方法

表格检索方法文本段落大语言模型预训练语言模型

一种经营分析报告生成方法、装置、电子设备及存储介质

分析报告生成方法指标语义数值大语言模型

基于环形激光测角仪的全自动校准方法、设备及介质

激光测角仪惯性测试设备校准方法测试点环形

页面的检测方法、装置、电子设备和存储介质

字段页面文本信息提取规则链条

一种基于人工智能生成内容的文本处理方法及系统

文本处理方法掩码矩阵风格编码向量关键词

一种基于AI大模型架构的混合语音识别方法及系统

站点导航

APP 下载