摘要
本发明涉及人工智能、计算机视觉与语音处理技术领域,具体是一种针对聋哑人士及嘈杂环境下语音识别需求的基于改进TSM‑ResNet50时空网络模型的唇语识别系统及方法;该系统通过融合YOLOv7目标检测算法、TSM‑ResNet50时空网络模型以及GRU网络和注意力机制等深度学习技术,实现了对唇语视频数据的高效、准确识别,并采用了B/S架构和轻量级Flask框架,实现了唇语识别的可视化展示,极大地提高了用户体验。本发明的提出,旨在为聋哑人士提供更加便捷、高效的交流方式,同时推动唇语识别技术的发展和应用。
技术关键词
门控循环单元网络
注意力机制
唇语识别系统
唇语识别技术
识别模块
残差网络
文本
特征提取能力
视频
深度学习技术
可视化模块
特征提取模块
实时语音
计算机视觉
字幕
算法
系统为您推荐了相关专利信息
身份识别系统
动作特征
图像分割
残差模块
身份识别方法
变电站巡检
注意力机制
上下文特征
巡检机器人
变电站机器人巡检