摘要
本发明提供的基于动态帧选择的分镜视频理解方法、装置、设备及介质,涉及视频理解领域。本发明使用卷积神经网络从获取的分镜视频的每一帧中提取出特征向量;选取两种聚类算法进行聚类分析,得到两种聚类结果;根据两种聚类结果创建对应的共识矩阵,并进行元素数值相加,得到融合共识矩阵;采用预设阈值,对融合共识矩阵进行分类,然后在每个类别中,计算连续帧间的特征向量值差异,选取差异值排名前二的两帧作为对应类别的代表帧;结合代表帧与视频首帧,计算出权重,得到视觉特征表示;将分镜视频的语音转换为文本,并结合视觉特征表示,通过深度学习算法进行特征提取与融合,得到分镜视频的理解文案。本发明能有效提升分镜视频理解的准确性。
技术关键词
视频理解方法
视觉特征
特征向量值
深度学习算法
矩阵
计算机可读指令
代表
动态
可读存储介质
层次聚类算法
特征提取单元
数值
文本
语音
处理器
存储器
系统为您推荐了相关专利信息
硅胶材料
监测管理系统
转移概率矩阵
指数
需求预测模型
车辆轨迹跟踪
卡尔曼滤波
Kalman滤波
算法
车辆跟踪方法
图像对象特征
图像识别模型
图像识别方法
概念
视觉特征