摘要
本发明公开了一种基于唇语识别的多模态抗干扰通信方法及系统,属于通信设备技术领域。该方法包括:获取人脸唇部视频流和音频信号;响应于常规模式触发信号,对唇部视频流和音频信号分别进行特征提取并将提取结果融合,生成融合特征向量;结合唇部运动信息对融合特征向量进行语音增强,输出音频增强信号;响应于无声通信模式触发信号,基于人脸唇部视频流进行唇语识别,以获取唇语识别文本,将唇语识别文本转换为语音。能够结合两种模态信息实现在超强噪声环境下的清晰稳定通信,解决了现有高噪声环境影响通信质量的问题以及特种场景下对移动式无声静默通讯的需求。
技术关键词
抗干扰通信方法
唇语识别
视频流
时空卷积神经网络
语音特征
视频特征向量
ROI图像
文本
抗干扰通信系统
人脸关键点检测
时域音频信号
姿态估计方法
MFCC特征
视觉特征提取
音频采集模块
序列
系统为您推荐了相关专利信息
封箱打包机
夹持输送机构
封箱机台
封箱机机芯
封箱机构
智能监控方法
多源监测数据
深度置信网络模型
流速
智能监控系统
流式语音识别方法
语音识别模型
语音类别
序列
移动设备
显示功能信息
图像增强装置
视频流
图像增强算法
图像增强模块