摘要
本公开提供了一种视频处理方法及装置、智能体、电子设备、存储介质和程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型和视频处理等技术领域。该视频处理方法包括:针对待处理视频序列中的至少两个第一视频帧,根据每个第一视频帧与待处理视频序列中除第一视频帧外的其他视频帧之间的时序特征,在第一视频帧中确定至少两个第二视频帧,其中,时序特征表征了相邻的视频帧之间的相似性;以及,根据任务描述与第二视频帧之间的跨模态特征,对第二视频帧中的除第一目标帧之外的其他目标帧进行压缩处理,得到经处理视频序列,其中,第一目标帧是根据跨模态特征确定的,跨模态特征表征了任务描述和第二视频帧之间的相似性。
技术关键词
视频帧
序列
子模块
注意力
视觉特征
时序特征
模态特征
跨模态
分辨率
语义
令牌
关键点
输入模块
标识
电子设备
文本
处理单元
人工智能技术
系统为您推荐了相关专利信息
电梯故障诊断方法
双向长短期记忆网络
故障传播路径
交叉注意力机制
Morlet小波变换
协同运行优化方法
模型预测控制方法
暖通空调系统
居民
决策
视频生成模型
语义向量
文本
运动特征
预训练语言模型