基于改进Transformer架构的语音识别系统

正文

推荐专利

申请号：CN202511002362

申请日期：2025-07-21

公开号：CN120748383A

公开日期：2025-10-03

类型：发明专利

摘要

本发明属于人工智能与语音识别领域，具体说是基于改进Transformer架构的语音识别系统，包括：自定位模块，用于接收原始音频信号，并行输出自监督语音特征向量与传统音频特征向量，并发送至特征归一化转换模块；特征归一化转换模块，用于将自监督语音特征向量与传统音频特征向量映射至标准说话人特征空间，输出归一化特征；感知建模模块通过改进型Transformer结构进行多尺度时序编码，输出语音语义概率分布序列；CTC损失模块，用于根据语音语义概率分布序列优化声学模型；协同单元用于接收多路原始音频特征，对得到的同步特征进行筛选可信通道，输出修正特征；融合滤波模块，用于接收本地特征与修正特征，通过注意力权重融合生成全局概率分布，并解码为最终文本序列。

技术关键词

语音识别系统融合滤波序列多尺度注意力机制语义语言模型得分定位模块音频特征网络单元识别方法字符标签更新模型参数语音特征处理单元通道时序

系统为您推荐了相关专利信息

模型微调数据集生成方法、装置、设备、介质及程序产品

预训练模型生成方法文本识别格式光学字符识别技术

一种基于深度学习的非接触式轮胎形变智能识别方法

智能识别方法轮胎橡胶像素接触式轮廓

一种基于图神经网络的铁路运输定价方法、装置及设备

定价方法门控循环单元线路节点定价装置

一种基于光纤传感器的数据异常检测和去噪方法

光纤传感器 K均值聚类算法集合经验模态分解 DBSCAN算法重构

基于知识图谱增强大模型的运维告警处理方法及系统

节点时序冗余度图谱推理规则

基于改进Transformer架构的语音识别系统

站点导航

APP 下载