摘要
本发明涉及一种用于根据文本提示生成合成视频数据的方法,特别是用于提供用于训练和/或测试和/或验证和/或确认机器学习模型的视频数据,该方法包括:‑提供(S1)描述要生成的视频数据的内容的输入文本提示;‑通过大语言模型将所提供的文本提示分解(S2)为至少两个文本子提示;‑为至少两个文本子提示中的每一个生成(S3)文本嵌入;以及‑基于所生成的文本嵌入,通过视频扩散模型生成(S4)合成视频数据。
技术关键词
注意力
文本
视频
机器学习模型
大语言模型
数据
变换器
图像编码器
视觉特征
计算机
因子
动态
介质
网络
模式
系统为您推荐了相关专利信息
行人检测方法
行人检测模型
注意力
解码器
混合编码器
定向投放方法
广告投放系统
物体识别模型
视频播放系统
需求方平台
图像语义分割方法
非对称特征
校正模块
解码器
sigmoid函数