摘要
本发明涉及语音识别的技术领域,公开了一种基于深度学习的语音识别和人机交互系统及方法。本发明首先获取初始语音信号,对初始语音信号进行预处理,得到处理后的语音信号;其次根据处理后的语音信号得到时域信号,根据时域信号计算得到帧的能量集合、梅尔倒谱系数集合和二阶差分集合,组成梅尔倒谱系数特征集合;再训练CNN神经网络和RNN神经网络分别得到声学模型和语言模型,对语音进行识别;根据语音识别结果生成初始语音识别文本,对初始语音识别文本进行预处理和词向量转换,计算相似度,最后根据相似度输出回复文本,实现人机交互。本发明通过对语音信号进行处理达到语音识别和人机交互目的,方法客观且准确。
技术关键词
梅尔倒谱系数
神经网络模型
人机交互方法
语音识别文本处理
RNN神经网络
训练词向量模型
语音信号降噪
中文自然语言
语音识别语言模型
语音信号处理
短时傅里叶变换
语音识别模型
样本
人机交互系统
音频
特征提取模块