摘要
本发明涉及人工智能领域,公开了一种基于文案生成视频的方法、装置、设备及介质,包括:通过获取待生成视频文案,并通过预设语义理解模型提取对应的关键语义特征,通过预设语音转换模型将待生成视频文案转换为对应的音频数据,并采用文本到语音算法对音频数据标记时间戳,将关键语义特征与预设素材库进行匹配获取图片素材,并生成带有时间戳的图文视频,采用预设动态谈话人脸视频模型对音频数据进行预设口型同步渲染,生成带有时间戳的虚拟人视频,根据图文视频的时间戳与虚拟人视频的时间戳,合并图文视频与虚拟人视频,生成最终视频并上传,解决了目前由于过于模板化的视频生成无法满足不同客户的需求,影响了客户体验的技术问题。
技术关键词
视频
语义理解模型
语义特征
图文
语音算法
声学特征
音频特征
人脸
可读存储介质
文本
动态
脸部特征
处理器
生成算法
标记
注意力机制
数据模块
系统为您推荐了相关专利信息
特征提取模块
多光谱
可见光
sigmoid函数
注意力
音视频
分布式麦克风阵列
PID控制器
人脸关键点
参数
脑肿瘤图像
自动分割系统
多模态
模态特征
卷积模块