一种与音频信息对齐的长视频理解增强方法及装置

正文

推荐专利

申请号：CN202411585774

申请日期：2024-11-08

公开号：CN119152888B

公开日期：2025-01-17

类型：发明专利

摘要

本发明提供一种与音频信息对齐的长视频理解增强方法及装置，解决了现有技术中存在的对视频数据进行处理时，未考虑视频中的音频信息以及大语言模型的训练和推理的成本大的问题。1）通过交叉注意力模块，实现了在增强视频时空特征融合的同时也减小了视频画面特征的序列长度，进一步减小了训练成本；2）通过编码视频中的音频信息并下采样至视频画面特征的序列长度，实现了视频中音频模态与对齐；3）将时间维度对齐的音频模态与画面模态相加，进行了信息的融合。将音频模态经过下采样与间隔选取的视频画面模态长度进行对齐，保留了全部信息。然后与画面模态相加，补齐了画面模态中因为间隔抽帧而造成的信息缺失问题。

技术关键词

视频帧音频编码视频编码器大语言模型采样模块注意力画面视频时空特征数据编码模块可读存储介质文本音频特征处理器答案

系统为您推荐了相关专利信息

一种基于NO2污染监测与知识问答的智慧系统

智慧系统问答模型任务调度框架答案大语言模型

一种基于大语言模型的企业知识问答系统

知识问答系统大语言模型语义向量术语企业

文档编辑方法、装置、设备、介质和产品

数据格式文档编辑方法生成提示信息分片存储服务器

一种通用的空间信息引导的医学图像恢复任务方法

医学图像分割模型卷积模块医学图像数据编码器解码器

高精度定位支撑的高安全性场景驱动决策控制一体化自动驾驶系统

自动驾驶系统数据安全监测智能网联汽车云端平台

一种与音频信息对齐的长视频理解增强方法及装置

站点导航

APP 下载