摘要
本发明属于语音识别领域,提供了一种AI语音识别方法及平板电脑,方法包括:提取输入的一维音频信号的时间域信息,根据梅尔尺度转换为二维梅尔频谱图;将二维梅尔频谱图输入到卷积神经网络模型中,卷积神经网络模型在提取特征时使用二值化权重和通过滑动窗口操作,卷积运算得到三维特征图,重塑层将三维特征图重塑为二维特征,全连接层对二维特征进行分类,映射到预设的中文拼音因素标签的概率空间,Softmax层对全连接层的输出值转换为每个音素的概率分布;将输出的每个音素的概率分布输入到连接时序分类解码器中,将最优音素序列转换为中文文本;本发明可以解决传统语音识别中高计算复杂度和硬件资源需求高的问题。
技术关键词
卷积神经网络模型
识别方法
AI语音识别
中文文本
短时傅里叶变换
动态规划算法
逻辑控制模块
解码器
深度学习训练方法
拼音
时间域
时序
序列
滑动窗口
音频
精度
存储模块
通道
压缩特征