摘要
本发明公开了一种基于图片相似度与语义聚类的视频高效拆条方法,首先,按照固定帧率提取视频中的图片帧,并利用图片编码模型计算相邻帧相似度,将相似度高的帧合并为初步视频片段。接着,提取音频并转写为文本,通过文本语义向量化与亲和聚类,对文本片段进行聚类分析,依据聚类结果合并视频片段。同时,针对长度不足的视频片段,通过动态计算相邻片段相似度进行智能合并,确保拆条的连贯性和精确性。该方法结合轻量级模型与并行处理,大幅提升了处理效率,解决了现有技术拆条过于细碎、依赖人物识别等问题,具有较强的通用性和适应性。
技术关键词
图片
语义向量
视频拆条方法
聚类
并行处理技术
语音识别模型
文本技术
音频
编码
动态
算法
音效
摘要
机制