摘要
本发明提供一种与音频信息对齐的长视频理解增强方法及装置,解决了现有技术中存在的对视频数据进行处理时,未考虑视频中的音频信息以及大语言模型的训练和推理的成本大的问题。1)通过交叉注意力模块,实现了在增强视频时空特征融合的同时也减小了视频画面特征的序列长度,进一步减小了训练成本;2)通过编码视频中的音频信息并下采样至视频画面特征的序列长度,实现了视频中音频模态与对齐;3)将时间维度对齐的音频模态与画面模态相加,进行了信息的融合。将音频模态经过下采样与间隔选取的视频画面模态长度进行对齐,保留了全部信息。然后与画面模态相加,补齐了画面模态中因为间隔抽帧而造成的信息缺失问题。
技术关键词
视频帧
音频编码
视频编码器
大语言模型
采样模块
注意力
画面
视频时空特征
数据
编码模块
可读存储介质
文本
音频特征
处理器
答案
系统为您推荐了相关专利信息
智慧系统
问答模型
任务调度框架
答案
大语言模型
数据格式
文档编辑方法
生成提示信息
分片
存储服务器
医学图像分割模型
卷积模块
医学图像数据
编码器
解码器
自动驾驶系统
数据安全监测
智能网联汽车
云端
平台