视频理解方法、视频理解系统和计算机设备

正文

推荐专利

视频理解方法、视频理解系统和计算机设备

申请号：CN202510991459

申请日期：2025-07-18

公开号：CN120492863B

公开日期：2025-12-23

类型：发明专利

摘要

本申请涉及一种视频理解方法、视频理解系统和计算机设备，通过获取流媒体数据和文本数据，基于流媒体数据提取出第一音频特征向量和第一图像特征向量，基于文本数据提取出文本特征向量；分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理，得到音频特征增强向量和图像特征增强向量；将音频特征增强向量和图像特征增强向量映射至文本向量空间，并与文本特征向量进行融合，得到多模态特征融合向量；以多模态特征融合向量作为多模态融合预训练任务的输入，计算损失函数，并通过反向传播调整多模态大模型的权重参数，直至损失函数收敛；将目标视频输入至经训练的多模态大模型进行处理，输出视频理解内容；解决了单模态偏差问题。

技术关键词

视频理解方法多模态特征融合音频特征图像特征向量文本特征向量文本数据提取理解系统损失函数优化模块时序计算机设备网络音频编码器关键帧

系统为您推荐了相关专利信息

数字人驱动方法、装置、设备及存储介质

音频特征手部关键点坐标解码器编码器

一种面向工业互联网的通信信号调制类型智能识别方法

面向工业互联网智能识别方法信号调制多模态特征融合卷积模块

基于全景拍摄图像处理的勘察岩芯数字化编录及查重方法

图像特征向量全景拍摄岩芯图像图像处理全景图像获取模块

一种基于层级多模态特征融合的遥感图像分割方法及系统

遥感图像分割方法合成孔径雷达影像多模态特征融合特征提取单元特征提取网络

基于机器视觉的塑料制品表面缺陷检测方法

塑料制品表面缺陷检测方法频域特征复数特征矩阵

视频理解方法、视频理解系统和计算机设备

站点导航

APP 下载