摘要
一种基于多模态的变电站作业安全校验方法和装置,方法包括:提取视频流中的人体关键点的坐标,转换为时空骨架图;利用图像膨胀的形态学滤波和掩码信息获取人体轮廓,并通过神经网络生成背景区域的场景语义特征图;将时空骨架图与场景语义特征图通过Transformer架构转换为场景描述文本;通过句法依存分析来比较场景描述文本与工作票文本的相似度,对作业流程进行校验与核对。本发明模型结构设计精简、优化空间大,便于在多种应用场景下调整和部署。
技术关键词
变电站作业
校验方法
多模态
语义特征
文本
人体关键点
分割掩模
形态学滤波
人体轮廓
生成场景
区域建议网络
全局平均池化
视频流
校验系统
信息编码
监控模块
图像
坐标
系统为您推荐了相关专利信息
文本摘要模型
LSTM神经网络
距离信息
生成特征
网格特征
印鉴图像
空间结构特征
校验方法
非暂态计算机可读存储介质
高光谱成像技术
物流标签
识别检测系统
订单生命周期
辅助检测技术
分布式计算框架