摘要
本申请实施例中提供了一种视频处理方法、装置、计算机设备和计算机存储介质,涉及视频技术领域。包括:将待处理视频输入混合深度神经网络,基于混合深度神经网络提取待处理视频中各图像序列帧的图像语义特征;其包含特征图提取模块和目标自适应注意力模块,特征图提取模块用于提取对应的多模态特征图,目标自适应注意力模块用于根据多模态特征图中各模态特征图的权重值以及关联度值确定各图像序列帧的图像语义特征;将图像语义特征输入至区域提议网络,以基于区域提议网络确定各图像序列帧的目标区域;对各图像序列帧的目标区域进行裁剪,以将目标视频进行横屏帧和竖屏帧的转换。本公开可以提高目标识别的准确性,确保竖屏视频质量及完整性。
技术关键词
序列帧
图像
注意力
场景类别
多模态特征
深度神经网络模型
模块
视频制作模板
计算机设备
语义特征提取
参数
计算机存储介质
置信度阈值
场景分类
分类网络
系统为您推荐了相关专利信息
重识别方法
人体姿态估计方法
语义特征
解码器
上下文语义信息
语义向量
内容推荐方法
执行内容推荐
向量提取方法
兴趣
生理生化指标
心血管疾病风险
人口统计数据
多模态特征
Stacking集成学习
辅助数据处理方法
动态
辅助数据处理系统
消息传递机制
多头注意力机制