摘要
本发明公开了基于大模型的长视频处理方法及装置、电子设备和介质,本发明涉及视频处理技术领域。该装置包括片段分割模块、特征提取模块、缓存机制模块、模型处理模块;通过结构化设计实现长视频高效精准处理;采用SSIM基于内容分割长视频为语义连贯片段,避免冗余帧无效处理,降低大模型单次处理序列长度,减少计算消耗;人物姿态特征通过骨骼关键点坐标平均值浓缩动作趋势,场景语义特征基于语义区域占比平均值反映场景属性,在减冗余的同时最大化保留关键语义;跨片段动态注意力缓存机制实时更新前序特征,通过关联度计算构建融入历史上下文的新特征,解决片段间信息断层;融合特征输入大模型,实现片段细节与跨片段关联协同处理。
技术关键词
骨骼关键点
姿态特征
子模块
缓存机制
前序特征
语义特征
场景
特征提取模块
坐标
视频处理过程
电子设备
语义关联度
视频帧集合
存储装置
可读存储介质
注意力
系统为您推荐了相关专利信息
演进预测方法
子模块
气象
神经网络模型
地形高程数据
音视频
骨骼关键点
决策控制模块
识别系统
音频传输延迟
泳池溺水检测方法
人体骨骼关键点
卷积模块
网络模块
注意力