摘要
本发明公开了一种基于多模态视听融合的麦克风语音识别系统及方法,属于人工智能和语音交互技术领域;首先,音频模块通过麦克风采集语音信号,借助云端语音识别API将语音转为文本,进一步使用Word2Vec将词语映射为300维语义向量。视觉模块提取唇动与log‑Mel频谱特征,唇部图像经Dlib检测与归一化处理后,送入3D CNN与密集时空CNN提取时空特征,辅以空间注意力机制突出关键区域,最终经双向GRU提取序列视觉特征。同时,将音频信号生成log‑Mel频谱图,通过Mel滤波和对数处理增强感知特性。音频词向量、唇动特征和log‑Mel特征拼接为多模态融合向量,送入CTC解码器,通过Beam Search解码预测文本。训练过程中使用Adam优化器与小批量训练策略,提升模型性能与泛化能力。
技术关键词
语音识别方法
云端语音识别
麦克风
频谱特征
语音识别系统
视听
多模态特征融合
定位人脸
视觉特征提取
音频
时序特征
注意力机制
光照变化干扰
文本
输出序列长度
图像
系统为您推荐了相关专利信息
智能辅助系统
大语言模型
集中度
学生学习状态
数据采集模块
噪声样本
电话语音交互
语音交互系统
音频输出模块
降噪方法