摘要
本申请提供了一种数字人自动讲解静态PPT的视频制作方法、装置、计算机设备和计算机存储介质,涉及视频处理技术领域。包括:从静态PPT的序列图像集合中提取各子图像中的第一目标文本信息;将各子图像中的第一目标文本信息转换为语音,并将得到的各子图像对应的初始音频文件进行合成,得到针对静态PPT的目标音频文件;其中,目标音频文件中各初始音频文件之间添加预设停顿时长,构建各初始音频文件的音频时间与各子图像的展示时间之间的对应关系;在各子图像之间添加预设停顿时长的PPT转场动画,得到针对静态PPT的初始PPT视频;基于目标音频文件控制虚拟数字人对初始PPT视频中的第一目标文本信息进行解说,得到目标PPT视频。该方法可以提高视频播放的流畅度。
技术关键词
视频制作方法
文本
图像
视频制作装置
序列
音频特征
动画
面部特征点
计算机设备
计算机存储介质
语音
处理器
可读存储介质
多模态
网格
关系
系统为您推荐了相关专利信息
车辆位姿估计方法
传感器融合
多传感器信息融合
位姿估计系统
存储模块
皮损
灰度共生矩阵
决策系统
滑动窗口
形状特征提取
保温层
管道表面温度
监测方法
时序特征
长短期记忆网络
数据库构建方法
文本
音频
语音识别方法
语音识别模型