视频理解方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202511211470

申请日期：2025-08-28

公开号：CN120726542B

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种视频理解方法，包括：获取待解析视频对应的多模态数据；基于多模态数据进行特征提取处理，得到每种多模态数据对应的模态特征；通过自注意力机制，对模态特征进行增强处理，得到增强后的模态特征；通过多头注意力机制，对增强后的模态特征进行特征融合处理，得到初始融合特征；基于模态特征之间的相似度，对初始融合特征中每种增强后的模态特征的权重进行调整处理，得到目标融合特征；基于目标融合特征进行推理，得到待解析视频的理解结果。通过多模态特征融合与权重动态调整机制，结合自注意力与多头注意力机制实现跨模态信息互补，能够充分利用多模态数据互补性、提升视频理解准确性以及深入挖掘剧情深层含义。

技术关键词

视频理解方法融合特征多头注意力机制计算机可读指令数据大语言模型多模态特征融合动态调整机制梯度下降算法计算机设备文本音频特征提取模块图谱训练集因子

系统为您推荐了相关专利信息

一种基于大数据的品牌评价信息生成方法及系统

时间段评价信息生成方法样本 LSTM模型标签

一种物联网设备组网安全审计方法、系统、设备及介质

物联网设备网络流量数据审计方法组网生成安全策略

一种临床信息管理方法及相关设备

临床决策支持信息管理方法报告知识图谱技术日志

一种拟态数据库审计系统的设计方法

数据库审计系统审计策略指标样本信息熵

事件类型的确定方法、装置、程序产品以及电子设备

时间段数据神经网络模型注意力机制事件分类技术

视频理解方法、装置、计算机设备及存储介质

站点导航

APP 下载