摘要
本发明提供的一种视频生成控制方法及计算机可读存储介质,应用于计算机技术领域。本发明通过分镜大模型解决分镜脚本结构缺陷,基于参考图像特征约束的图像生成确保分镜图特征的一致性,结合情感化语音合成与动态嘴型对齐实现音画同步,并通过分镜视频提示词指导多主体生成算法提升视频保真度,从而有效解决了现有AIGC技术在影视创作中存在的情感逻辑缺失、分镜图特征一致性差、音频同步困难及视频生成可控性不足等技术难题,提升了视频内容制作的效率和质量。
技术关键词
视频
生成控制方法
图像
脚本
语音特征
嵌入特征
注意力
语音编码器
文本
手部特征
韵律特征
音频
动态
可读存储介质
音效
场景
语音识别模型
语音同步
序列