摘要
本发明公开了基于多模态大模型的WebRTC语音增强系统及方法,属于人工智能与实时通信交叉技术领域,该系统包括:音视频采集模块,用于通过WebRTC协议栈同步采集用户端的原始语音信号和对应的视频图像数据,并通过时间戳标记与缓存机制实现高精度对齐;多模态特征提取模块,用于分别从所述语音信号中提取音频特征,从所述视频图像中提取视觉唇动特征,以及通过语音识别引擎生成文本语义特征;噪声匹配与更新模块;多模态语义感知增强模块;音频重建模块;WebRTC集成模块。本发明在保障语音语义完整性的同时,实现高精度噪声抑制与毫秒级延迟,满足工业巡检、车载通信等场景对高保真、低延迟、强鲁棒性的需求。
技术关键词
多模态
噪声模板
音视频
语音识别引擎
唇动特征
音频特征
集成模块
特征提取模块
梅尔频率倒谱系数
缓存机制
高精度噪声
交叉注意力机制
文本
语义特征
短时傅里叶变换