摘要
本发明属于人工智能与语音识别领域,具体说是基于改进Transformer架构的语音识别系统,包括:自定位模块,用于接收原始音频信号,并行输出自监督语音特征向量与传统音频特征向量,并发送至特征归一化转换模块;特征归一化转换模块,用于将自监督语音特征向量与传统音频特征向量映射至标准说话人特征空间,输出归一化特征;感知建模模块通过改进型Transformer结构进行多尺度时序编码,输出语音语义概率分布序列;CTC损失模块,用于根据语音语义概率分布序列优化声学模型;协同单元用于接收多路原始音频特征,对得到的同步特征进行筛选可信通道,输出修正特征;融合滤波模块,用于接收本地特征与修正特征,通过注意力权重融合生成全局概率分布,并解码为最终文本序列。
技术关键词
语音识别系统
融合滤波
序列
多尺度注意力机制
语义
语言模型得分
定位模块
音频特征
网络单元
识别方法
字符
标签
更新模型参数
语音特征
处理单元
通道
时序
系统为您推荐了相关专利信息
预训练模型
生成方法
文本识别
格式
光学字符识别技术
光纤传感器
K均值聚类算法
集合经验模态分解
DBSCAN算法
重构