一种人员密集环境下语音的语义解析方法

正文

推荐专利

一种人员密集环境下语音的语义解析方法

申请号：CN202510935465

申请日期：2025-07-08

公开号：CN120431913B

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种人员密集环境下语音的语义解析方法，包括：采集获取目标用户的语音信号数据、唇动视频流数据；提取唇部运动特征序列，将唇部运动特征序列映射为预测语音特征向量；输入声纹分离模型，从混合语音信号中分离目标用户的语音段，生成纯净语音数据特征；对纯净语音数据特征进行时域分割，获取单字的语音信号时域波形；将单字语音信号时域波形与声母、韵母时域波形库进行匹配，获取各字对应的拼音表达；对连续单字的拼音表达进行声调组合关联性分析，获取目标用户的语音段含义。本发明的优点在于：通过结合唇动视频流和语音信号数据，利用深度学习和声纹分离技术，有效提取目标用户的语音，显著提高了嘈杂环境下的语音识别准确性。

技术关键词

语义解析方法信号时域波形运动特征卷积神经网络模型拼音线性预测编码视频流计算机可读指令数据语音识别准确性序列梅尔频率倒谱系数编码器解码器发音语义关联度包络处理器

一种人员密集环境下语音的语义解析方法

站点导航

APP 下载