视频理解方法、视频理解系统和计算机设备

AITNT
正文
推荐专利
视频理解方法、视频理解系统和计算机设备
申请号:CN202510991459
申请日期:2025-07-18
公开号:CN120492863B
公开日期:2025-12-23
类型:发明专利
摘要
本申请涉及一种视频理解方法、视频理解系统和计算机设备,通过获取流媒体数据和文本数据,基于流媒体数据提取出第一音频特征向量和第一图像特征向量,基于文本数据提取出文本特征向量;分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量;将音频特征增强向量和图像特征增强向量映射至文本向量空间,并与文本特征向量进行融合,得到多模态特征融合向量;以多模态特征融合向量作为多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至损失函数收敛;将目标视频输入至经训练的多模态大模型进行处理,输出视频理解内容;解决了单模态偏差问题。
技术关键词
视频理解方法 多模态特征融合 音频特征 图像特征向量 文本特征向量 文本数据提取 理解系统 损失函数优化 模块 时序 计算机设备 网络 音频编码器 关键帧
系统为您推荐了相关专利信息
1
数字人驱动方法、装置、设备及存储介质
音频特征 手部关键点 坐标 解码器 编码器
2
一种面向工业互联网的通信信号调制类型智能识别方法
面向工业互联网 智能识别方法 信号调制 多模态特征融合 卷积模块
3
基于全景拍摄图像处理的勘察岩芯数字化编录及查重方法
图像特征向量 全景拍摄 岩芯图像 图像处理 全景图像获取模块
4
一种基于层级多模态特征融合的遥感图像分割方法及系统
遥感图像分割方法 合成孔径雷达影像 多模态特征融合 特征提取单元 特征提取网络
5
基于机器视觉的塑料制品表面缺陷检测方法
塑料制品表面 缺陷检测方法 频域特征 复数特征 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号