一种基于音频驱动的数字人视频生成方法和系统

AITNT
正文
推荐专利
一种基于音频驱动的数字人视频生成方法和系统
申请号:CN202510770096
申请日期:2025-06-10
公开号:CN120602740A
公开日期:2025-09-05
类型:发明专利
摘要
本申请公开一种基于音频驱动的数字人视频生成方法和系统,其方法包括:S1:获取输入的音频数据,对音频进行音频预处理以及音频提取特征,得到反映音频内容、情感和节奏的音频特征向量;S2:对输入的人脸图片进行图片预处理以及图片提取特征,得到人脸外观特征;S3:将所述音频特征和人脸外观特征映射为表情参数和动作参数;S4:基于输入的人脸图片和生成的表情参数、动作参数以及音频信息,生成完整的数字人视频。本申请仅需人脸图片作为基础素材,结合音频信息即可生成数字人视频,摆脱了对一定时长形象视频的依赖,极大地降低了数字人视频生成的门槛,而且采用新的技术方案让表情更真实。
技术关键词
视频生成方法 人脸图片特征提取 生成数字人 参数 视频生成系统 音频特征提取 关键特征点 机器可读指令 表情特征 动作特征 时序特征 人脸检测模型 人脸特征提取 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号