摘要
本发明公开了一种基于多模态分析的短视频智能剪辑方法及系统,涉及视频剪辑技术领域。用于提升剪辑效率与视觉体验,对目标短视频流提取人物唇部运动特征、商品视觉显著性特征及语音情感强度值,形成多模态时序数据;随后,将语音流转录并提取产品关键词时间戳,同时结合视觉显著性峰值,通过动态时间规整计算对齐度,并结合情感强度值加权评估,生成初步剪辑点集合;构建基于深度强化学习的剪辑决策优化模型,将多模态特征作为状态输入,以联合奖励函数调整剪辑点保留概率并选择最优转场方式;分析剪辑点前后唇部运动与语音同步误差及过渡段情感与视觉连续性,对不连续区域进行平滑处理,输出剪辑成品,实现了精准化的短视频智能剪辑。
技术关键词
视频智能剪辑方法
视觉显著性特征
多模态
动态时间规整算法
语音
深度强化学习
模态特征
关键词
同步误差
运动特征
序列
后处理模块
视觉显著性检测
强度
连续性
注意力
视频流
策略
特征提取模块
系统为您推荐了相关专利信息
图像
数据标注方法
多模态
计算机设备
对象检测模型
多模态数据采集
割台高度
激光测距模组
传感
农业机械自动化技术
智能语音交互方法
大语言模型
显示设备
生成自然语言
智能语音识别设备
语音数据传输方法
语义
节点
云平台
语音数据传输系统