基于音视频关联信息瓶颈的视频定位方法

AITNT
正文
推荐专利
基于音视频关联信息瓶颈的视频定位方法
申请号:CN202511211160
申请日期:2025-08-27
公开号:CN121030041A
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及智能家居监控技术领域,特别是一种基于音视频关联信息瓶颈的视频定位方法,包括:特征提取:将未剪辑视频、查询语言及对应音频投影到相同维度后注入嵌入层,然后进行编码,通过注意力模块获取文本查询拼接特征与音频拼接特征;多模态协同突显语义变分门控过滤:利用多层感知机编码器将特征嵌入潜在表示得到隐层特征,经可学习变分门控机制处理后融合得到跨模态特征;融合模态与跨视频语义过滤:跨模态特征经编码器得潜在跨模态特征,结合边界预测器,通过优化互信息构建损失函数;边界预测阶段,将潜在跨模态特征输入边界预测器,选取概率最大的起始帧和结束帧完成定位。本发明能够实现对特定行为或事件的有效识别和预警。
技术关键词
视频定位方法 查询特征 跨模态 文本 音频特征 多模态协同 多层感知机 音视频 编码器 损失函数优化 注意力 瓶颈 智能家居监控技术 参数 双向长短期记忆网络 Sigmoid函数 定位标签
系统为您推荐了相关专利信息
1
一种基于视觉语言大模型的人员异常行为检测方法及系统
文本特征向量 视觉 语义标签 多模态 控制中心
2
浸膏干燥过程中含水量检测方法与装置、存储介质
高维特征向量 热力图 烘干系统 红外热成像传感器 融合多模态特征
3
一种社交平台用户画像生成方法及相关装置
画像生成方法 社交平台 多模态 神经网络模型训练 多层感知机
4
面向车联网的海量多模数据检索方法
数据检索方法 面向车联网 压缩特征 查询特征 PCA算法
5
一种文档识别方法、装置、计算设备和存储介质
大语言模型 光学字符识别 文档识别方法 位置指示信息 键值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号