摘要
本发明提出了基于视听融合的道路场景识别方法及系统,涉及道路场景识别技术领域。包括获取道路场景视频,提取关键帧;提取关键帧中每一帧的全局特征和局部特征进行融合,得到多层的关键帧的场景特征表示,将多层的关键帧的场景特征表示进行融合,得到道路场景视觉模态的视觉特征;分离道路场景视频中的音频,提取音频的MFCC特征,作为道路场景音频模态的声音特征;将视觉特征和声音特征进行融合,基于融合特征对道路场景进行分类,得到道路场景识别结果。本发明充分考虑道路视频场景的局部目标特征与全局场景特征的结合,并考虑将视觉特征与声音特征进行多模态融合,通过多层视听融合的框架,提高道路视频场景识别的准确率。
技术关键词
道路场景识别方法
关键帧
场景特征
视听
融合特征
音频
视频场景识别
场景识别技术
场景识别系统
声音特征提取
视觉特征提取
图像特征提取
处理器
程序
可读存储介质
多模态
系统为您推荐了相关专利信息
智能分类预测
稳定特征
冗余度
下降斜率
多模态生物特征
数据传输延迟
多层感知器网络
动态反馈机制
融合策略
多模态感知系统
时空融合特征
虚拟现实培训
时序神经网络
肘关节
多模态
注意力机制
全局特征提取
特征融合网络
特征提取网络
双向注意力