摘要
本申请涉及一种视频理解方法、视频理解系统和计算机设备,通过获取流媒体数据和文本数据,基于流媒体数据提取出第一音频特征向量和第一图像特征向量,基于文本数据提取出文本特征向量;分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量;将音频特征增强向量和图像特征增强向量映射至文本向量空间,并与文本特征向量进行融合,得到多模态特征融合向量;以多模态特征融合向量作为多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至损失函数收敛;将目标视频输入至经训练的多模态大模型进行处理,输出视频理解内容;解决了单模态偏差问题。
技术关键词
视频理解方法
多模态特征融合
音频特征
图像特征向量
文本特征向量
文本数据提取
理解系统
损失函数优化
模块
时序
计算机设备
网络
音频编码器
关键帧
系统为您推荐了相关专利信息
面向工业互联网
智能识别方法
信号调制
多模态特征融合
卷积模块
图像特征向量
全景拍摄
岩芯图像
图像处理
全景图像获取模块
遥感图像分割方法
合成孔径雷达影像
多模态特征融合
特征提取单元
特征提取网络
塑料制品表面
缺陷检测方法
频域特征
复数特征
矩阵