一种与音频信息对齐的长视频理解增强方法及装置

AITNT
正文
推荐专利
一种与音频信息对齐的长视频理解增强方法及装置
申请号:CN202411585774
申请日期:2024-11-08
公开号:CN119152888B
公开日期:2025-01-17
类型:发明专利
摘要
本发明提供一种与音频信息对齐的长视频理解增强方法及装置,解决了现有技术中存在的对视频数据进行处理时,未考虑视频中的音频信息以及大语言模型的训练和推理的成本大的问题。1)通过交叉注意力模块,实现了在增强视频时空特征融合的同时也减小了视频画面特征的序列长度,进一步减小了训练成本;2)通过编码视频中的音频信息并下采样至视频画面特征的序列长度,实现了视频中音频模态与对齐;3)将时间维度对齐的音频模态与画面模态相加,进行了信息的融合。将音频模态经过下采样与间隔选取的视频画面模态长度进行对齐,保留了全部信息。然后与画面模态相加,补齐了画面模态中因为间隔抽帧而造成的信息缺失问题。
技术关键词
视频帧 音频编码 视频编码器 大语言模型 采样模块 注意力 画面 视频时空特征 数据 编码模块 可读存储介质 文本 音频特征 处理器 答案
系统为您推荐了相关专利信息
1
一种基于NO2污染监测与知识问答的智慧系统
智慧系统 问答模型 任务调度框架 答案 大语言模型
2
一种基于大语言模型的企业知识问答系统
知识问答系统 大语言模型 语义向量 术语 企业
3
文档编辑方法、装置、设备、介质和产品
数据格式 文档编辑方法 生成提示信息 分片 存储服务器
4
一种通用的空间信息引导的医学图像恢复任务方法
医学图像分割模型 卷积模块 医学图像数据 编码器 解码器
5
高精度定位支撑的高安全性场景驱动决策控制一体化自动驾驶系统
自动驾驶系统 数据安全监测 智能网联汽车 云端 平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号