一种音频驱动的真人口型播报视频生成方法和系统

AITNT
正文
推荐专利
一种音频驱动的真人口型播报视频生成方法和系统
申请号:CN202411525978
申请日期:2024-10-30
公开号:CN119364143A
公开日期:2025-01-24
类型:发明专利
摘要
本发明公开了一种音频驱动的真人口型播报视频生成方法和系统,涉及视频生成技术领域。本发明包括真人素材采集,视频裁剪与扩充,背景合成,视频倒序处理,人脸区域裁剪,音频素材合成,人脸口型驱动。本发明基于使用拍摄采集方法获得的基础真人视频,结合文本语音合成技术,生成可用于口型驱动的任意场景下的真人口型播报视频,可用于数字人、虚拟主播、语音助手领域。本发明的技术方案通过一系列创新点,不仅提升了真人口型播报视频生成的效率和质量,而且拓宽了各种场景下的应用范围,为用户带来更加丰富和真实的交互体验,同时也为数字人播报等产业的发展提供了强有力的技术支持。
技术关键词
视频生成方法 音频 图像处理技术 视频生成技术 视频生成系统 视频编辑软件 人脸检测算法 视频采集单元 驱动算法 裁剪单元 场景 语音助手 图像失真 语音特征 分辨率 高清
系统为您推荐了相关专利信息
1
一种多模态情感分析方法和装置
音频特征 情感分析方法 交互视频 文本 跨模态
2
一种驱鸟装置
视频监控设备 驱鸟装置 扩音器 风力发电设备 控制主板
3
基于扬声器的抑噪音频生成方法、抑噪音频生成设备及存储介质
掩模 短时傅里叶变换 生成方法 扬声器 卷积特征
4
图像处理方法、装置、电子设备、存储介质及程序产品
图像处理模型 样本 图像处理方法 分辨率 分支
5
一种视频异常检测系统、方法、计算机设备及存储介质
音频特征 多模态特征 异常检测系统 融合特征 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号