摘要
本申请公开了一种会议语音识别方法、装置、电子设备,属于语音识别技术领域。所述方法包括:对多个拾音设备采集的会议音频进行会议场景一致性判断,获取会议音频中匹配目标会议场景的会议音频;对匹配目标会议场景的会议音频进行分段筛选及多设备拼接处理,获取目标会议场景的拼接音频;对目标会议场景的预先采集的视觉信息和拼接音频进行多模态信息融合,获取多模态融合信息;基于多模态融合信息进行语音识别,得到目标会议场景的会议语音识别结果。本方法利用多拾音设备协同采集单一会议场景的会议音频,确保得到的高质量语音信号;通过在音频信号中融合多模态信息进行语音识别,全面捕捉和处理多种数据,提高了语音识别的准确度和鲁棒性。
技术关键词
会议场景
音频
多模态信息融合
拾音设备
语音识别方法
融合多模态信息
分段
语音识别装置
语音识别技术
语音识别模块
视觉
电子设备
神经网络模型
处理器
视频
背景噪声
多设备
系统为您推荐了相关专利信息
音视频交互
音频特征
多模态
多层感知机
全局平均池化
音频识别方法
听觉
人工神经网络
线性分类器
音频信号处理技术
光伏储能设备
频谱特征
故障风险评估
独立成分分析算法
短时傅里叶变换
数据
多模态特征
音频
动态资源分配
矢量量化算法