摘要
本发明公开了基于文本和镜头相似的自动化视频剪辑方法、装置及终端,属于人工智能技术领域。该方法包括:基于对指定音乐的音乐区间识别结果,确定混剪视频的结束时间;挑选主体标签为风景的镜头作为片头镜头;并基于主体识别结果、行为识别结果和运动计算结果,与其他镜头进行相似度分析,并基于深度学习模型计算镜头间的视觉相似度,识别重复或冗余画面,挑选高能镜头作为片中高燃镜头;并基于挑选的结束词的对应片段,检索并截取对应镜头作为片尾镜头;将所述指定音乐、及片头、片中高燃镜头和片尾镜头进行音视频混剪组装。本发明通过融合多模态特征分析与智能剪辑逻辑生成,实现高效、高质量的视频自动化生产。
技术关键词
镜头
视频剪辑方法
音乐节奏识别
自动语音识别技术
深度学习模型
文本
语义结构
大语言模型
音视频
分片
标签
字幕
视频剪辑装置
画面
运动
冗余
主题
视觉
系统为您推荐了相关专利信息
深度生成网络
射频指纹识别方法
记忆
射频指纹提取
深度生成模型
融合图像处理
钢筋切断机
双目视觉系统
预警方法
手部关键点