摘要
本发明提供了一种基于海量数据信息提取的语音唤醒方法和装置,方法包括从海量文本数据提取与唤醒词发音相似的候选词语构建关键词数据库,具体通过网络爬虫获取文本、Jieba分词、BERT+TextCNN模型筛选实现;把候选词语录制成音频与原始唤醒词音频混合成训练数据集,对其提取129维Fbank和Pitch融合特征;将融合特征输入基于注意力机制的端到端语音唤醒模型训练;实时采集音频,端点检测提取有效语音段,用训练后的模型输出唤醒概率,依概率阈值判定是否唤醒。本发明可以降低误唤醒率并提升唤醒率,改善语音唤醒交互体验。
技术关键词
语音唤醒方法
语音唤醒模型
语音唤醒装置
海量文本数据
焦点损失函数
注意力机制
语音特征提取
融合特征
关键词
支持分布式计算
音频
Softmax函数
分词
网络爬虫技术
词语
生成训练数据
损失函数优化
模型训练模块