用于根据文本提示生成合成视频数据的方法和设备

正文

推荐专利

申请号：CN202510310990

申请日期：2025-03-17

公开号：CN120676111A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及一种用于根据文本提示生成合成视频数据的方法，特别是用于提供用于训练和/或测试和/或验证和/或确认机器学习模型的视频数据，该方法包括：‑提供(S1)描述要生成的视频数据的内容的输入文本提示；‑通过大语言模型将所提供的文本提示分解(S2)为至少两个文本子提示；‑为至少两个文本子提示中的每一个生成(S3)文本嵌入；以及‑基于所生成的文本嵌入，通过视频扩散模型生成(S4)合成视频数据。

技术关键词

注意力文本视频机器学习模型大语言模型数据变换器图像编码器视觉特征计算机因子动态介质网络模式

系统为您推荐了相关专利信息

基于目标检测模型的密集拥挤行人检测方法及系统

行人检测方法行人检测模型注意力解码器混合编码器

智能回复方法、装置、计算机设备及存储介质

智能回复方法文本客户端偏好特征画像

基于关键帧记忆和目标特异性滤波的多目标实时跟踪方法

跟踪方法孪生神经网络关键帧协方差矩阵记忆

一种基于影视场景及物品的广告精准定向投放方法

定向投放方法广告投放系统物体识别模型视频播放系统需求方平台

一种基于非对称交叉融合的RGBD图像语义分割方法

图像语义分割方法非对称特征校正模块解码器 sigmoid函数

用于根据文本提示生成合成视频数据的方法和设备

站点导航

APP 下载