摘要
本申请提供了一种基于模块化网络的动态视角视频生成方法和装置,涉及人工智能技术领域,旨在生成了与用户指令相匹配的多场景的动态视角长视频。所述方法包括:通过大语言模型将用户指令解析为多个场景,每个场景包括场景描述和场景转换指令,所述场景转换指令表征场景间的转换方式;根据所述场景转换指令选择模块化场景转换器,所述模块化场景转换器用于使生成的视频具有场景转换指令对应的转换方式;将控制图像和所述场景描述作为控制信息,通过基视频生成器和所述模块化场景转换器依次生成各个场景的视频,所述控制图像为上一场景的视频的最后一帧图像;将各个场景的视频进行拼接,得到与所述用户指令相匹配的多场景动态视角视频。
技术关键词
转换器
噪声
大语言模型
注意力机制
视频生成方法
指令
表征场景
编码器
视角
图像
动态
视频生成装置
样本
人工智能技术
生成场景
解码器
拼接模块
网络
系统为您推荐了相关专利信息
主动防御方法
大语言模型
策略
云端
任务分配执行
网络部署方法
施工现场数据
通信信道
通信网络
施工设备
电力负荷预测方法
电能表
粒子
神经网络模型
数据
自动检测装置
睡眠呼吸暂停检测
信号特征提取
特征提取模块
信号采集模块
语音识别模块
灯条控制
主控电路模块
USB接口模块
语音控制指令