摘要
本发明公开了一种基于大模型的影视剧自动理解,剪辑与解说的方法,基于音频提取工具和多模态模型,获取待进行解说的视频中的完整音频,以获取具有说话人的音频片段的时间戳,进而获取待进行解说的视频的剧本描述,以获取待进行解说的视频的剧情摘要;基于文本嵌入模型和图文特征提取模型,获取与所述逐句的画面描述对应的视频片段;最后基于语音文字转换模型获取所述逐句的画面描述的语音配音,获取完整的视频解说,完成对待进行解说的视频的理解,剪辑与解说。本发明显著减少了人工干预,提高了视频解说剪辑的处理效率,降低了人力成本。通过自动生成剧本描述、剧情摘要和解说,使得用户能够更快速、更便捷地获取视频的核心内容,增强了用户体验。
技术关键词
视频
影视剧
画面
特征提取模型
音频
字幕
文本特征向量
图文
镜头分割算法
场景
摘要方法
语音
深度学习模型
大语言模型
语义
索引
多模态
标识
系统为您推荐了相关专利信息
智能检测方法
运动轨迹数据
图像分割
关键点
轻量级神经网络
功能模块
全景视频系统
虚拟现实视频
横向推进器
控制视频系统