一种基于音视频的多模态语音增强系统

AITNT
正文
推荐专利
一种基于音视频的多模态语音增强系统
申请号:CN202411563116
申请日期:2024-11-05
公开号:CN119380742A
公开日期:2025-01-28
类型:发明专利
摘要
本发明公开了一种基于音视频的多模态语音增强系统,该增强系统包括数据采集模块,通过麦克风采集目标音频以及背景噪声和干扰音;利用摄像头同步采集环境视觉信息,包括说话者的面部表情和口型,对噪声和干扰音进行归一化处理,确保与目标音频的动态范围匹配;数据分析模块,对采集到的音频进行预处理,包括噪声抑制和语音增强,应用深度学习模型提高语音的清晰度;提高语音清晰度:该发明通过降噪和语音增强技术,能够有效减少背景噪声的干扰,使语音更加清晰。这样,听众能更容易听懂讲话内容,尤其是在嘈杂的环境中,如公共交通工具或繁忙的街道;改善语音识别准确率:该发明可以提高语音信号的质量。
技术关键词
音视频 音频 数据采集模块 数据分析模块 背景噪声 视觉信息优化 面部 深度学习模型 语音识别准确率 单张人脸图像 一维卷积神经网络 噪声抑制 麦克风 多模态信息 编码器 特征提取网络 人脸模型 特征提取模块
系统为您推荐了相关专利信息
1
一种多模态数据加密传输方法及系统
虚拟切片 数据加密传输方法 关键帧 生成加密密钥 信令
2
一种基于雷达和视频的铁路沿线侵界管理系统
管理系统 监控模块 雷达 视频监控平台 预警平台
3
一种基于机器人的智能会议备忘录生成方法
信息整合技术 麦克风阵列采集 语音特征 更新知识图谱 波束成形技术
4
一种基于人工智能的云计算安全管理系统
风险 执行安全控制 随机森林模型 时间滑动窗口 动态上下文
5
基于物联网的路桥面突然坍塌预警系统及方法
坍塌预警系统 风险预测模型 数据处理系统 变形监测系统 分布式光纤监测
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号