一种音频驱动的真人口型播报视频生成方法和系统

正文

推荐专利

申请号：CN202411525978

申请日期：2024-10-30

公开号：CN119364143A

公开日期：2025-01-24

类型：发明专利

摘要

本发明公开了一种音频驱动的真人口型播报视频生成方法和系统，涉及视频生成技术领域。本发明包括真人素材采集，视频裁剪与扩充，背景合成，视频倒序处理，人脸区域裁剪，音频素材合成，人脸口型驱动。本发明基于使用拍摄采集方法获得的基础真人视频，结合文本语音合成技术，生成可用于口型驱动的任意场景下的真人口型播报视频，可用于数字人、虚拟主播、语音助手领域。本发明的技术方案通过一系列创新点，不仅提升了真人口型播报视频生成的效率和质量，而且拓宽了各种场景下的应用范围，为用户带来更加丰富和真实的交互体验，同时也为数字人播报等产业的发展提供了强有力的技术支持。

技术关键词

视频生成方法音频图像处理技术视频生成技术视频生成系统视频编辑软件人脸检测算法视频采集单元驱动算法裁剪单元场景语音助手图像失真语音特征分辨率高清

系统为您推荐了相关专利信息

一种多模态情感分析方法和装置

音频特征情感分析方法交互视频文本跨模态

一种驱鸟装置

视频监控设备驱鸟装置扩音器风力发电设备控制主板

基于扬声器的抑噪音频生成方法、抑噪音频生成设备及存储介质

掩模短时傅里叶变换生成方法扬声器卷积特征

图像处理方法、装置、电子设备、存储介质及程序产品

图像处理模型样本图像处理方法分辨率分支

一种视频异常检测系统、方法、计算机设备及存储介质

音频特征多模态特征异常检测系统融合特征文本

一种音频驱动的真人口型播报视频生成方法和系统

站点导航

APP 下载