用于根据文本提示生成合成视频数据的方法和设备

AITNT
正文
推荐专利
用于根据文本提示生成合成视频数据的方法和设备
申请号:CN202510310990
申请日期:2025-03-17
公开号:CN120676111A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及一种用于根据文本提示生成合成视频数据的方法,特别是用于提供用于训练和/或测试和/或验证和/或确认机器学习模型的视频数据,该方法包括:‑提供(S1)描述要生成的视频数据的内容的输入文本提示;‑通过大语言模型将所提供的文本提示分解(S2)为至少两个文本子提示;‑为至少两个文本子提示中的每一个生成(S3)文本嵌入;以及‑基于所生成的文本嵌入,通过视频扩散模型生成(S4)合成视频数据。
技术关键词
注意力 文本 视频 机器学习模型 大语言模型 数据 变换器 图像编码器 视觉特征 计算机 因子 动态 介质 网络 模式
系统为您推荐了相关专利信息
1
基于目标检测模型的密集拥挤行人检测方法及系统
行人检测方法 行人检测模型 注意力 解码器 混合编码器
2
智能回复方法、装置、计算机设备及存储介质
智能回复方法 文本 客户端 偏好特征 画像
3
基于关键帧记忆和目标特异性滤波的多目标实时跟踪方法
跟踪方法 孪生神经网络 关键帧 协方差矩阵 记忆
4
一种基于影视场景及物品的广告精准定向投放方法
定向投放方法 广告投放系统 物体识别模型 视频播放系统 需求方平台
5
一种基于非对称交叉融合的RGBD图像语义分割方法
图像语义分割方法 非对称特征 校正模块 解码器 sigmoid函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号