一种基于AI大模型架构的混合语音识别方法及系统

AITNT
正文
推荐专利
一种基于AI大模型架构的混合语音识别方法及系统
申请号:CN202511020356
申请日期:2025-07-23
公开号:CN120977296A
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供在一种基于AI大模型架构的混合语音识别方法及系统,方法包括:构建包含传统ASR系统和AI大模型的ASR系统的混合体系;基于大量无标注音频数据,通过自监督学习对大模型预训练,挖掘音频信号特征,对AI大模型进行有监督微调;在基础层利用交叉熵损失训练文本输出;在中间层或辅助头引入声学建模分支,采用CTC损失函数训练声学输出;联合CTC损失函数与交叉熵损失训练实现声学与文本信息融合;在模型训练或推理阶段,采用音频分块方式及KV缓存技术实现高效流式识别;支持边说边出识别结果,发话结束后,大模型基于所有缓存信息迅速完成后续自回归文本推理,输出高精度识别文本。本发明实现高精度与流式体验的兼容。
技术关键词
混合语音识别方法 音频分块 文本 解码模型 缓存技术 分词 线性预测倒谱系数 梅尔频率倒谱系数 语音识别场景 数据 序列 人类 ASR系统 语音识别系统 特征提取能力 中间层 强化学习算法 模型预训练
系统为您推荐了相关专利信息
1
一种面向航天控制软件表格数据的序列化处理和检索方法
表格 检索方法 文本段落 大语言模型 预训练语言模型
2
一种经营分析报告生成方法、装置、电子设备及存储介质
分析报告生成方法 指标 语义 数值 大语言模型
3
基于环形激光测角仪的全自动校准方法、设备及介质
激光测角仪 惯性测试设备 校准方法 测试点 环形
4
页面的检测方法、装置、电子设备和存储介质
字段 页面 文本 信息提取规则 链条
5
一种基于人工智能生成内容的文本处理方法及系统
文本处理方法 掩码矩阵 风格 编码向量 关键词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号