摘要
本发明公开了一种视频理解方法,包括:获取待解析视频对应的多模态数据;基于多模态数据进行特征提取处理,得到每种多模态数据对应的模态特征;通过自注意力机制,对模态特征进行增强处理,得到增强后的模态特征;通过多头注意力机制,对增强后的模态特征进行特征融合处理,得到初始融合特征;基于模态特征之间的相似度,对初始融合特征中每种增强后的模态特征的权重进行调整处理,得到目标融合特征;基于目标融合特征进行推理,得到待解析视频的理解结果。通过多模态特征融合与权重动态调整机制,结合自注意力与多头注意力机制实现跨模态信息互补,能够充分利用多模态数据互补性、提升视频理解准确性以及深入挖掘剧情深层含义。
技术关键词
视频理解方法
融合特征
多头注意力机制
计算机可读指令
数据
大语言模型
多模态特征融合
动态调整机制
梯度下降算法
计算机设备
文本
音频
特征提取模块
图谱
训练集
因子
系统为您推荐了相关专利信息
时间段
评价信息生成方法
样本
LSTM模型
标签
物联网设备
网络流量数据
审计方法
组网
生成安全策略
临床决策支持
信息管理方法
报告
知识图谱技术
日志
时间段
数据
神经网络模型
注意力机制
事件分类技术