摘要
本发明实施例提出一种逻辑行为检测方法、装置、电子设备及计算机可读存储介质,涉及计算机视觉技术领域。该方法将视频内容转化为统一且稳定的视觉特征表示,为后续语义建模提供可靠输入。利用基于增强样本训练得到的语义空间对齐模型,结合查询记忆库机制逐帧生成并更新查询向量,能够提高动作识别精准度,使语义空间对齐模型能够动态累积和维护视频处理中的历史语义信息。利用快慢交叉注意力层提升对局部动作细节与整体语义的理解能力。将待检测视频对应的查询向量输入大语言模型进行逻辑行为检测,在保留视频时序结构完整性的同时,实现对视频内容中逻辑行为的准确识别与自然语言表达,显著提升行为检测任务对长视频的建模效率与推理精度。
技术关键词
视觉特征
注意力
视频帧
逻辑
语义
记忆
样本
大语言模型
矩阵
可读存储介质
计算机视觉技术
时序结构
电子设备
采样率
层级
处理器
自然语言
颜色
系统为您推荐了相关专利信息
编辑界面
虚拟对象移动
交互方法
配置虚拟场景
处理单元
定位单元
工业机器人单元
阻挡定位机构
工业机器人路径规划
校正工装
DDoS攻击检测方法
加密
数据
注意力机制
网络设备
监控图像分析
对象
车道
调控方法
空间金字塔池化