摘要
本发明提供了一种人脸一致性多角度镜头视频生成方法、装置,涉及多角度镜头视频生成技术领域,该方法通过LoRA微调技术对图像生成模型进行个性化调整,从单张照片生成同一人物的多角度多姿态图像序列;利用图像转视频模块将多张图像合成为短视频片段;通过大语言模型(LLM)生成符合语音播报逻辑的文案脚本;最后结合唇形驱动与视频拼接技术,将语音与图像合成并驱动口型动作,拼接多角度镜头为流畅连贯的完整视频。显著提升了口播视频的自动化程度,增强了视频的真实感和视觉丰富度,解决了现有技术生成口播视频时存在镜头单一、流程分散、唇形驱动不连贯以及人工干预多的问题。
技术关键词
多角度
视频生成方法
视频生成装置
图像生成模型
镜头
人脸
开源框架
微调单元
视频生成技术
关键词
视频拼接技术
脚本
序列
文本
短视频
风格
主题
微调技术
系统为您推荐了相关专利信息
图像生成模型
图像生成方法
布局
文本检测模型
文本识别模型
关键视觉信息
图像生成模型
图文
主题关键词
风格
可见光相机
可见光信号
光电信号转换器
可见光探测器
相机组件