摘要
本申请涉及人工智能技术领域,公开了一种生成视频的方法、装置、设备及存储介质。该方法包括:通过大语言模型对目标剧本进行拆分得到分镜脚本,以及从目标剧本中提取各个角色的特征信息。通过生成工具基于特征信息,生成对应的角色形象图;将角色形象图及对应的每个分镜脚本分别输入第三大语言模型,得到每个分镜脚本对应的分镜图;为每个分镜脚本匹配对应的目标音频;将每个分镜脚本与对应的分镜图及目标音频组合,生成对应的分镜视频;将所有分镜视频组合得到目标视频。采用本方法能够根据故事性文字自动化、高效地生成相匹配的具有正确逻辑和情节连贯性的视频,满足用户的个性化需求,并且能够节省大量的人工成本、金钱成本及时间成本。
技术关键词
大语言模型
脚本
视频
音频
音效
生成工具
文本
人工智能技术
关键词
处理器
格式
模块
可读存储介质
语音
存储器
电子设备
关系
主题
音乐
面部
系统为您推荐了相关专利信息
图像识别模型
图像识别方法
特征协方差矩阵
模态特征
文本编码器
故障智能诊断方法
声呐
图谱
故障智能诊断系统
大语言模型
360度无死角
深度学习图像识别
异构计算架构
任务调度机制
任务调度算法
交通安全隐患
交通事故信息
街景图片
排查方法
高斯核函数