摘要
本发明提供一种基于AI大模型的语音识别方法及其系统,语音识别技术领域,本发明首先通过预训练的对抗噪声抑制网络实现噪声环境下的降噪和频段增强,并结合多维度的频谱质量评分为后续处理提供依据,其次,基于元特征向量与预构建的方言热力图库的相似度匹配以及基于频谱质量评分的匹配权重调整,实现对特定方言发音偏差的精准建模,再者,通过超网络生成的声学适配矩阵和语言模型适配矩阵,提升模型对不同方言的适应能力,此外,将融合热力图与声学适配矩阵共同注入预训练的声学模型,通过多层级注意力修正改善方言音素的识别准确率,最后,采用热力图引导的集束搜索算法并结合对抗判别网络的验证,实现精准语音识别。
技术关键词
语音识别方法
热力图
噪声抑制
信噪比
动态语言模型
注意力
噪声敏感度
语音识别系统
非线性增益补偿
超网络
搜索算法
历史数据统计
筛选方法
矩阵乘法运算
文本
发音
编码器特征
语音识别技术