一种通过文字驱动的数字人物说话视频生成方法及系统

正文

推荐专利

申请号：CN202511303017

申请日期：2025-09-12

公开号：CN120812364B

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种通过文字驱动的数字人物说话视频生成方法及系统，属于人工智能视频生成技术领域。该方法首先对于数字人物视频数据集所涉到的视频进行视频处理；然后进行文字以及图像特征提取；再进行图像特征重塑并将文字特征利用WaveNet生成音频；接着对生成的多帧图像进行修复；最后将步骤修复后的图像与步骤生成的音频按时间顺序拼接生成数字人物视频并对生成结果评估。该方法具备强大的控制能力、多样的控制类型，无需重新训练基础模型，能有效提升数字人物说话视频的生成效果，使视频中人物动作、表情与语音内容高度契合，显著提高用户体验。

技术关键词

文字特征视频生成方法运动特征人脸多模态注意力图像特征提取情感特征语义特征文本编码器音频特征对齐模块随机噪声面部关键点检测连续特征

系统为您推荐了相关专利信息

基于Web前端边缘计算的物联网设备自适应控制方法及系统

联网设备网络状态感知离线设备控制云端

视频生成方法、装置、智能体、电子设备及存储介质

音频特征注意力机制视频生成方法时序随机噪声

一种未挂牌非机动车驾驶员识别方法、系统及程序产品

驾驶员识别方法非机动车抓拍设备正面时间差

基于血尿酸预测疾病风险的方法及装置

疾病风险预测模型预测疾病风险人脸光电容积脉搏波信号样本

基于脉冲扩散模型的帧间图像辅助信息生成方法

信息生成方法脉冲重构视频帧图像处理技术

一种通过文字驱动的数字人物说话视频生成方法及系统

站点导航

APP 下载