摘要
本发明公开了一种人员密集环境下语音的语义解析方法,包括:采集获取目标用户的语音信号数据、唇动视频流数据;提取唇部运动特征序列,将唇部运动特征序列映射为预测语音特征向量;输入声纹分离模型,从混合语音信号中分离目标用户的语音段,生成纯净语音数据特征;对纯净语音数据特征进行时域分割,获取单字的语音信号时域波形;将单字语音信号时域波形与声母、韵母时域波形库进行匹配,获取各字对应的拼音表达;对连续单字的拼音表达进行声调组合关联性分析,获取目标用户的语音段含义。本发明的优点在于:通过结合唇动视频流和语音信号数据,利用深度学习和声纹分离技术,有效提取目标用户的语音,显著提高了嘈杂环境下的语音识别准确性。
技术关键词
语义解析方法
信号时域波形
运动特征
卷积神经网络模型
拼音
线性预测编码
视频流
计算机可读指令
数据
语音识别准确性
序列
梅尔频率倒谱系数
编码器解码器
发音
语义关联度
包络
处理器