摘要
本发明提供在一种基于AI大模型架构的混合语音识别方法及系统,方法包括:构建包含传统ASR系统和AI大模型的ASR系统的混合体系;基于大量无标注音频数据,通过自监督学习对大模型预训练,挖掘音频信号特征,对AI大模型进行有监督微调;在基础层利用交叉熵损失训练文本输出;在中间层或辅助头引入声学建模分支,采用CTC损失函数训练声学输出;联合CTC损失函数与交叉熵损失训练实现声学与文本信息融合;在模型训练或推理阶段,采用音频分块方式及KV缓存技术实现高效流式识别;支持边说边出识别结果,发话结束后,大模型基于所有缓存信息迅速完成后续自回归文本推理,输出高精度识别文本。本发明实现高精度与流式体验的兼容。
技术关键词
混合语音识别方法
音频分块
文本
解码模型
缓存技术
分词
线性预测倒谱系数
梅尔频率倒谱系数
语音识别场景
数据
序列
人类
ASR系统
语音识别系统
特征提取能力
中间层
强化学习算法
模型预训练
系统为您推荐了相关专利信息
表格
检索方法
文本段落
大语言模型
预训练语言模型