摘要
本申请涉及一种文生视频方法、装置、计算机设备和存储介质。所述方法包括:通过将样本视频分割成多个语义连贯的视频片段后,对每个视频片段进行说话对象检测,筛选出包含有清晰可见说话对象的视频片段作为筛选片段,以确保参与模型训练的人脸样本清晰度较高、人脸姿态自然,避免了传统数据集中的人脸闪烁问题,并针对筛选片段中的说话对象进行人脸占比的调整得到裁剪片段,确保所有样本视频中人脸比例的一致性,避免传统数据集中人脸过大或过小,更符合实际应用场景,利用裁剪片段和说话对象的音频数据来参与文生视频模型的训练,以确保说话对象的口型可以与音频同步,令训练后的文生视频模型针对文生视频请求生成的视频内容中人脸表现良好。
技术关键词
人脸图像序列
人脸姿态
对象识别模型
人脸特征
样本
语义
视频帧
计算机设备
音频特征
人脸检测算法
滑动窗口
裁剪模块
追踪算法
视频装置
系统为您推荐了相关专利信息
压力控制参数
复合冲压模具
系统误差模型
训练样本集
分析模块
检测元件
字符识别模型
异常检测方法
图像
计算机视觉技术
参数优化方法
机器学习模型
粒子群优化算法
数据
样本
模糊神经网络模型
重构误差
生化需氧量
变量
环境监测站