摘要
本发明公开了一种音频驱动的真人口型播报视频生成方法和系统,涉及视频生成技术领域。本发明包括真人素材采集,视频裁剪与扩充,背景合成,视频倒序处理,人脸区域裁剪,音频素材合成,人脸口型驱动。本发明基于使用拍摄采集方法获得的基础真人视频,结合文本语音合成技术,生成可用于口型驱动的任意场景下的真人口型播报视频,可用于数字人、虚拟主播、语音助手领域。本发明的技术方案通过一系列创新点,不仅提升了真人口型播报视频生成的效率和质量,而且拓宽了各种场景下的应用范围,为用户带来更加丰富和真实的交互体验,同时也为数字人播报等产业的发展提供了强有力的技术支持。
技术关键词
视频生成方法
音频
图像处理技术
视频生成技术
视频生成系统
视频编辑软件
人脸检测算法
视频采集单元
驱动算法
裁剪单元
场景
语音助手
图像失真
语音特征
分辨率
高清
系统为您推荐了相关专利信息
视频监控设备
驱鸟装置
扩音器
风力发电设备
控制主板
音频特征
多模态特征
异常检测系统
融合特征
文本