摘要
本发明涉及电力巡检系统中的人员动作检索定位技术领域,公开了一种异常动作检索定位方法、系统、设备及介质,方法包括:获取目标电力场景第一图像数据并预处理,为后续提供可靠基础。建立态势感知图像编码器,可高效整合人员姿态信息至视觉特征空间,提升场景感知理解能力。预设基于身份的难例集合,助模型识别处理复杂情况,提高异常动作检索定位的准确性与鲁棒性。进行图像与文本嵌入融合,利用图像和文本信息,增强模型跨模态理解与检索能力,建立满足图像与文本嵌入融合的多模态大型语言模型。本发明方法在电力巡检、安全监控等场景有重要应用价值,通过自动化、智能化方式,快速准确检索定位异常动作,提高工作效率,增强安全保障。
技术关键词
检索定位方法
图像编码器
身份
关键点
视觉特征提取
文本
转换单元
跨模态
电力巡检系统
检测器
加权损失函数
交叉注意力机制
智能化方式
数据
场景
自然语言
多模态