摘要
本发明实施例涉及一种视频生成方法、装置、计算机设备及存储介质,通过针对训练样本集合中的多个目标文本和对应的目标视频计算全局语义相似度、局部语义相似度矩阵和时序语义相似度,以用于计算综合对比学习损失函数;根据目标文本和对应的文本语义结构表示、以及目标视频和对应的视频语义结构表示计算语义保持对比损失函数;根据综合对比学习损失函数和语义保持对比损失函数计算总损失函数;根据总损失函数对目标模型进行训练。由此,可以通过融合全局、局部与时序语义相似度构建综合对比学习损失函数,并结合语义结构保持机制,引入语义保持对比损失,实现多层次、结构化的语义对齐,增强了文本驱动视频生成的准确性与可控性。
技术关键词
语义结构
视频生成方法
文本
时序特征
计算机设备
矩阵
视频生成装置
融合全局
生成程序
样本
处理器
模块
多层次
存储器
参数
机制
系统为您推荐了相关专利信息
运动康复系统
上肢康复机器人
上肢康复训练
大语言模型
视觉交互设备
机器人控制方法
物理
多模态特征
知识图谱构建
机器人控制装置
编码特征
多视角
深度特征融合
多模态
图像编码器