摘要
本发明公开了基于扩散模型和文本嵌入的视频异常检测方法,涉及视频异常检测技术领域。本发明提供的基于扩散模型和文本嵌入的视频异常检测方法,包括首先利用图文生成模型提取各视频帧的文本信息,再通过预训练的CLIP文本编码器得到语义特征;基于图像扩散模型和文本扩散模型,构建视频异常检测模型,并利用交叉注意力机制分别引导图像扩散去噪网络、文本扩散去噪网络重构图像特征和文本特征,再通过整体优化完成模型训练,进而对视频异常进行检测。因此,采用上述方法,能够借助扩散模型的强大生成能力和图生文模型的语义理解能力,缓解了特定场景下的过度泛化问题,增强了视频异常检测的可解释性,提高视频异常检测模型的性能。
技术关键词
视频异常检测方法
交叉注意力机制
语义特征
重构
文本编码器
图像编码器
异常检测技术
图像解码器
自动编码器
网络
模块
图文
视频帧
噪声
场景
系统为您推荐了相关专利信息
加速度
语义特征
旋转导向系统
姿态测量方法
压缩特征
卷积神经网络模型
偏最小二乘回归模型
可溶性固形物含量
超分辨率重构
葡萄
异构设备
协同控制方法
重构策略
强化学习算法
电气自动化系统