摘要
本发明涉及人工智能英文语音识别领域,尤其涉及一种提高ASR识别效果的人工干预分词方法。本发明通过构建特殊分词规则库,基于该库设计分词算法,对数据文本进行处理以得到token序列及id数组,同时提取音频频谱特征,将两者转化为数学向量。利用音频特征向量训练初始化的Transformer与CTC损失函数架构模型,多次迭代优化参数。当训练损失和验证损失稳定且不再显著下降时,得到最优模型参数。该方法有效解决了传统分词方法中粒度选择的难题,避免过度切分或切分粒度过大导致词表token过大、训练难度增加的问题,从而增强分词合理性,遵循语言规律地分词方式,提高了语音识别的准确率与高效性。
技术关键词
分词方法
分词算法
频谱特征
语音特征
参数
数学
语音识别模型
文本
序列
音频特征
矩阵
数据
决策
策略
批量
周期
信号