摘要
本发明涉及智能家居监控技术领域,特别是一种基于音视频关联信息瓶颈的视频定位方法,包括:特征提取:将未剪辑视频、查询语言及对应音频投影到相同维度后注入嵌入层,然后进行编码,通过注意力模块获取文本查询拼接特征与音频拼接特征;多模态协同突显语义变分门控过滤:利用多层感知机编码器将特征嵌入潜在表示得到隐层特征,经可学习变分门控机制处理后融合得到跨模态特征;融合模态与跨视频语义过滤:跨模态特征经编码器得潜在跨模态特征,结合边界预测器,通过优化互信息构建损失函数;边界预测阶段,将潜在跨模态特征输入边界预测器,选取概率最大的起始帧和结束帧完成定位。本发明能够实现对特定行为或事件的有效识别和预警。
技术关键词
视频定位方法
查询特征
跨模态
文本
音频特征
多模态协同
多层感知机
音视频
编码器
损失函数优化
注意力
瓶颈
智能家居监控技术
参数
双向长短期记忆网络
Sigmoid函数
定位标签
系统为您推荐了相关专利信息
高维特征向量
热力图
烘干系统
红外热成像传感器
融合多模态特征
画像生成方法
社交平台
多模态
神经网络模型训练
多层感知机
数据检索方法
面向车联网
压缩特征
查询特征
PCA算法
大语言模型
光学字符识别
文档识别方法
位置指示信息
键值