一种基于音视频的多模态语音增强系统

正文

推荐专利

一种基于音视频的多模态语音增强系统

申请号：CN202411563116

申请日期：2024-11-05

公开号：CN119380742A

公开日期：2025-01-28

类型：发明专利

摘要

本发明公开了一种基于音视频的多模态语音增强系统，该增强系统包括数据采集模块，通过麦克风采集目标音频以及背景噪声和干扰音；利用摄像头同步采集环境视觉信息，包括说话者的面部表情和口型，对噪声和干扰音进行归一化处理，确保与目标音频的动态范围匹配；数据分析模块，对采集到的音频进行预处理，包括噪声抑制和语音增强，应用深度学习模型提高语音的清晰度；提高语音清晰度：该发明通过降噪和语音增强技术，能够有效减少背景噪声的干扰，使语音更加清晰。这样，听众能更容易听懂讲话内容，尤其是在嘈杂的环境中，如公共交通工具或繁忙的街道；改善语音识别准确率：该发明可以提高语音信号的质量。

技术关键词

音视频音频数据采集模块数据分析模块背景噪声视觉信息优化面部深度学习模型语音识别准确率单张人脸图像一维卷积神经网络噪声抑制麦克风多模态信息编码器特征提取网络人脸模型特征提取模块

系统为您推荐了相关专利信息

一种多模态数据加密传输方法及系统

虚拟切片数据加密传输方法关键帧生成加密密钥信令

一种基于雷达和视频的铁路沿线侵界管理系统

管理系统监控模块雷达视频监控平台预警平台

一种基于机器人的智能会议备忘录生成方法

信息整合技术麦克风阵列采集语音特征更新知识图谱波束成形技术

一种基于人工智能的云计算安全管理系统

风险执行安全控制随机森林模型时间滑动窗口动态上下文

基于物联网的路桥面突然坍塌预警系统及方法

坍塌预警系统风险预测模型数据处理系统变形监测系统分布式光纤监测

一种基于音视频的多模态语音增强系统

站点导航

APP 下载