一种基于多模态视听融合的麦克风语音识别系统及方法

AITNT
正文
推荐专利
一种基于多模态视听融合的麦克风语音识别系统及方法
申请号:CN202510521530
申请日期:2025-04-24
公开号:CN120340463B
公开日期:2025-12-09
类型:发明专利
摘要
本发明公开了一种基于多模态视听融合的麦克风语音识别系统及方法,属于人工智能和语音交互技术领域;首先,音频模块通过麦克风采集语音信号,借助云端语音识别API将语音转为文本,进一步使用Word2Vec将词语映射为300维语义向量。视觉模块提取唇动与log‑Mel频谱特征,唇部图像经Dlib检测与归一化处理后,送入3D CNN与密集时空CNN提取时空特征,辅以空间注意力机制突出关键区域,最终经双向GRU提取序列视觉特征。同时,将音频信号生成log‑Mel频谱图,通过Mel滤波和对数处理增强感知特性。音频词向量、唇动特征和log‑Mel特征拼接为多模态融合向量,送入CTC解码器,通过Beam Search解码预测文本。训练过程中使用Adam优化器与小批量训练策略,提升模型性能与泛化能力。
技术关键词
语音识别方法 云端语音识别 麦克风 频谱特征 语音识别系统 视听 多模态特征融合 定位人脸 视觉特征提取 音频 时序特征 注意力机制 光照变化干扰 文本 输出序列长度 图像
系统为您推荐了相关专利信息
1
声子晶体模拟装置及方法、声子晶体检测方法、伽尔顿板
信号放大器 功率放大器 振子 运算放大器 示波器
2
基于大语言模型的课堂教学智能辅助系统
智能辅助系统 大语言模型 集中度 学生学习状态 数据采集模块
3
一种线上游览方法、装置、设备及存储介质
三维模型 笛卡尔坐标系 数据接口 游览方法 视角
4
基于SIP和RTP的智能电话语音交互降噪方法及系统
噪声样本 电话语音交互 语音交互系统 音频输出模块 降噪方法
5
车机账户登录方法、装置、车辆、存储介质及程序产品
车机账户 声纹模型 登录方法 频谱特征 密码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号