一种基于多模态视听融合的麦克风语音识别系统及方法

正文

推荐专利

申请号：CN202510521530

申请日期：2025-04-24

公开号：CN120340463B

公开日期：2025-12-09

类型：发明专利

摘要

本发明公开了一种基于多模态视听融合的麦克风语音识别系统及方法，属于人工智能和语音交互技术领域；首先，音频模块通过麦克风采集语音信号，借助云端语音识别API将语音转为文本，进一步使用Word2Vec将词语映射为300维语义向量。视觉模块提取唇动与log‑Mel频谱特征，唇部图像经Dlib检测与归一化处理后，送入3D CNN与密集时空CNN提取时空特征，辅以空间注意力机制突出关键区域，最终经双向GRU提取序列视觉特征。同时，将音频信号生成log‑Mel频谱图，通过Mel滤波和对数处理增强感知特性。音频词向量、唇动特征和log‑Mel特征拼接为多模态融合向量，送入CTC解码器，通过Beam Search解码预测文本。训练过程中使用Adam优化器与小批量训练策略，提升模型性能与泛化能力。

技术关键词

语音识别方法云端语音识别麦克风频谱特征语音识别系统视听多模态特征融合定位人脸视觉特征提取音频时序特征注意力机制光照变化干扰文本输出序列长度图像

系统为您推荐了相关专利信息

声子晶体模拟装置及方法、声子晶体检测方法、伽尔顿板

信号放大器功率放大器振子运算放大器示波器

基于大语言模型的课堂教学智能辅助系统

智能辅助系统大语言模型集中度学生学习状态数据采集模块

一种线上游览方法、装置、设备及存储介质

三维模型笛卡尔坐标系数据接口游览方法视角

基于SIP和RTP的智能电话语音交互降噪方法及系统

噪声样本电话语音交互语音交互系统音频输出模块降噪方法

车机账户登录方法、装置、车辆、存储介质及程序产品

车机账户声纹模型登录方法频谱特征密码

一种基于多模态视听融合的麦克风语音识别系统及方法

站点导航

APP 下载