摘要
本发明提供了基于兴趣点的单图生成视频方法、系统、设备及存储介质,该方法包括:采集兴趣点的海量视频;对海量视频进行预处理,将预处理后的视频作为训练数据集,并使用大语言模型进行视频描述生成语言描述信息;基于视频和语言描述信息训练图生视频大模型,在图生视频大模型中视频至少被拆分为若干视频帧;获得兴趣点的目标图片;将目标图片输入经过训练的图生视频大模型,识别目标图片中的对象,并获得基于图片的语言描述信息,语言描述信息至少包括图片中识别的对象、各对象之间的空间位置和相机运动轨迹,从而生成一兴趣点展示视频。本发明能够实现单张图像快速生成动效视频,大幅减少人力成本,优化酒店、景点等内容展示,提升用户体验。
技术关键词
图片
大语言模型
对象
兴趣点
文本编码器
视频解码器
视频编码器
视频帧
视频输出模块
相机
轨迹
视频采集模块
模型训练模块
酒店房间
运动
视频系统
视频设备
处理器
系统为您推荐了相关专利信息
咳嗽声音识别方法
MFCC特征
融合特征
音频
声音特征提取
疾病早期诊断
疾病生物标志物
对象
脓毒症生物标志物
蛋白质芯片试剂盒
模型训练方法
建立分类模型
计算机存储介质
构建测试数据
数据采集模块
大语言模型
参数提取方法
数据
语义特征
参数提取装置