摘要
本发明公开了一种基于有限状态机的自定义语音唤醒词检测方法,包括如下步骤:利用互联网上的开源中文语音数据集训练Transformer网络模型;对输入的语音信号进行分帧加窗处理,并提取对应的特征;将提取的特征输入到Transformer网络模型中,生成帧概率张量;配置目标唤醒词内容并获得目标唤醒词对应的声韵母拼音序列,并构建有限状态机解码网络;对帧概率张量进行处理生成新的帧概率张量;将新的帧概率张量输入有限状态机解码网络,运行维特比算法,搜索最优音素路径;计算所有音素状态得分的平均值,与预设门限值进行比较,当超过时激活唤醒词。本发明结合Transformer模型和有限状态机技术,实现自定义语音唤醒词检测,具备灵活配置、低功耗运行、高精度和强鲁棒性的优点。
技术关键词
唤醒词检测方法
自定义语音
解码网络
拼音
维特比算法
序列
符号
状态机技术
信号
滑动窗口机制
短时傅里叶变换
ReLU函数
离散余弦变换
节点
互联网
采样率
系统为您推荐了相关专利信息
图像编码
瓶颈特征
编码特征
分割医学图像
解码网络
义齿修复体
深度神经网络模型
人工智能技术
生成方法
印模
棉纺织
深度神经网络模型
BCH纠错码
解码网络
生成水印图像
无监督聚类方法
编码器
K均值算法
工业
重构误差
金字塔特征
场景深度估计方法
二维卷积神经网络
二维卷积网络
解码网络