摘要
本申请的目的是提供一种故事文本合成视频的方法及设备,本申请通过将故事文本输入到LLM模型中,并设定所述LLM模型的提示器;对LLM模型基于提示器输出的N个事件提取文本特征,得到N个文本特征;获取初始化的全零图像的图像特征,根据全零图像的图像特征与第一个文本特征确定视频的第一帧后续循环执行步骤:根据前一事件的视频帧的图像特征与当前事件的文本特征确定视频的当前帧,直至确定出视频的第N帧;将第一帧至第N帧进行合并,合成故事视频。从而可以得到语义更加连贯的故事视频。
技术关键词
计算机可读指令
视频
提示器
图像
变分自动编码器
文本编码器
处理器
语义
解码
格式
存储器
介质
系统为您推荐了相关专利信息
融合特征
多尺度特征
网络模块
特征金字塔网络
卫星遥感技术
宠物看护机器人
伸缩牵引绳
避障方法
激光雷达
机器人底盘
自动贴合方法
贴合系统
序列二次规划算法
深度卷积神经网络
投影定位系统