摘要
本申请公开了一种工业巡检场景的多模态分析方法、系统、设备及介质。所述方法包括:实时采集工业巡检区域的多模态数据,包括视频图像与语音数据;将当前采集到的多模态数据输入场景类型识别模型,识别场景类型;基于确定的场景类型匹配对应的多模态融合方式;根据匹配的多模态融合方式,分别利用深度学习算法对视频图像进行特征提取,利用自然语言处理技术对语音数据转化的文本进行特征提取,将提取的特征进行多模态融合;利用深度学习算法对多模态融合特征进行联合推理,识别工业巡检区域潜在风险或设备故障;基于识别的潜在风险或设备故障生成巡检报告与决策。本申请能够实现工业巡检场景的智能化分析,提高巡检效率与准确率。
技术关键词
工业巡检
模态分析方法
深度学习算法
场景
多尺度特征融合
跨尺度特征融合
融合特征
设备故障率
风险
多模态数据分析
深度学习模型
模态分析系统
自然语言
神经网络模型
模态特征
多模态数据融合
复杂度
系统为您推荐了相关专利信息
卷积神经网络模块
辅助系统
深度学习卷积神经网络
炉具
卷积神经网络深度学习模型
技能控件
虚拟对象
显示虚拟场景
计算机可执行指令
计算机程序产品
复杂度
直方图
关键帧
视频编码方法
非临时性计算机可读存储介质