基于音视频关联信息瓶颈的视频定位方法

正文

推荐专利

基于音视频关联信息瓶颈的视频定位方法

申请号：CN202511211160

申请日期：2025-08-27

公开号：CN121030041A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及智能家居监控技术领域，特别是一种基于音视频关联信息瓶颈的视频定位方法，包括：特征提取：将未剪辑视频、查询语言及对应音频投影到相同维度后注入嵌入层，然后进行编码，通过注意力模块获取文本查询拼接特征与音频拼接特征；多模态协同突显语义变分门控过滤：利用多层感知机编码器将特征嵌入潜在表示得到隐层特征，经可学习变分门控机制处理后融合得到跨模态特征；融合模态与跨视频语义过滤：跨模态特征经编码器得潜在跨模态特征，结合边界预测器，通过优化互信息构建损失函数；边界预测阶段，将潜在跨模态特征输入边界预测器，选取概率最大的起始帧和结束帧完成定位。本发明能够实现对特定行为或事件的有效识别和预警。

技术关键词

视频定位方法查询特征跨模态文本音频特征多模态协同多层感知机音视频编码器损失函数优化注意力瓶颈智能家居监控技术参数双向长短期记忆网络 Sigmoid函数定位标签

系统为您推荐了相关专利信息

一种基于视觉语言大模型的人员异常行为检测方法及系统

文本特征向量视觉语义标签多模态控制中心

浸膏干燥过程中含水量检测方法与装置、存储介质

高维特征向量热力图烘干系统红外热成像传感器融合多模态特征

一种社交平台用户画像生成方法及相关装置

画像生成方法社交平台多模态神经网络模型训练多层感知机

面向车联网的海量多模数据检索方法

数据检索方法面向车联网压缩特征查询特征 PCA算法

一种文档识别方法、装置、计算设备和存储介质

大语言模型光学字符识别文档识别方法位置指示信息键值

基于音视频关联信息瓶颈的视频定位方法

站点导航

APP 下载