摘要
本发明公开了一种基于检索的文生视频方法,包括:(1)对输入的文本提示P进行文本特征提取,获得语义向量;(2)利用语义向量在文本‑视频库中进行检索,匹配相似的文本‑视频对,选择与输入的文本提示P最相似的参考视频;(3)从参考视频中提取关键帧及其关键区域,并进行运动特征的提取;(4)使用提取的运动特征对预训练的文本‑视频生成模型进行微调;(5)将文本提示P输入到微调后的文本‑视频生成模型中,生成最终视频。利用本发明,可以提高生成视频的运动特征精准度,降低计算成本的同时提升视频的真实性。
技术关键词
视频生成模型
语义向量
文本
运动特征
预训练语言模型
关键帧
关键词
核心
蒸馏
注意力
定义
时间段
时序
图片
元素
图像
关系
系统为您推荐了相关专利信息
神经网络结构
情感分析模型
知识问答方法
文本
节点
负荷转供
大语言模型
决策方法
模型训练模块
配电网拓扑结构
分布式供能系统
大语言模型
容量配置方法
数值优化算法
数学模型
文本
信息生成方法
芯片系统
电子设备
生成提示信息