一种人员密集环境下语音的语义解析方法

AITNT
正文
推荐专利
一种人员密集环境下语音的语义解析方法
申请号:CN202510935465
申请日期:2025-07-08
公开号:CN120431913B
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种人员密集环境下语音的语义解析方法,包括:采集获取目标用户的语音信号数据、唇动视频流数据;提取唇部运动特征序列,将唇部运动特征序列映射为预测语音特征向量;输入声纹分离模型,从混合语音信号中分离目标用户的语音段,生成纯净语音数据特征;对纯净语音数据特征进行时域分割,获取单字的语音信号时域波形;将单字语音信号时域波形与声母、韵母时域波形库进行匹配,获取各字对应的拼音表达;对连续单字的拼音表达进行声调组合关联性分析,获取目标用户的语音段含义。本发明的优点在于:通过结合唇动视频流和语音信号数据,利用深度学习和声纹分离技术,有效提取目标用户的语音,显著提高了嘈杂环境下的语音识别准确性。
技术关键词
语义解析方法 信号时域波形 运动特征 卷积神经网络模型 拼音 线性预测编码 视频流 计算机可读指令 数据 语音识别准确性 序列 梅尔频率倒谱系数 编码器解码器 发音 语义关联度 包络 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号