一种通过文字驱动的数字人物说话视频生成方法及系统

AITNT
正文
推荐专利
一种通过文字驱动的数字人物说话视频生成方法及系统
申请号:CN202511303017
申请日期:2025-09-12
公开号:CN120812364B
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种通过文字驱动的数字人物说话视频生成方法及系统,属于人工智能视频生成技术领域。该方法首先对于数字人物视频数据集所涉到的视频进行视频处理;然后进行文字以及图像特征提取;再进行图像特征重塑并将文字特征利用WaveNet生成音频;接着对生成的多帧图像进行修复;最后将步骤修复后的图像与步骤生成的音频按时间顺序拼接生成数字人物视频并对生成结果评估。该方法具备强大的控制能力、多样的控制类型,无需重新训练基础模型,能有效提升数字人物说话视频的生成效果,使视频中人物动作、表情与语音内容高度契合,显著提高用户体验。
技术关键词
文字特征 视频生成方法 运动特征 人脸 多模态注意力 图像特征提取 情感特征 语义特征 文本编码器 音频特征 对齐模块 随机噪声 面部关键点检测 连续特征
系统为您推荐了相关专利信息
1
基于Web前端边缘计算的物联网设备自适应控制方法及系统
联网设备 网络状态感知 离线 设备控制 云端
2
视频生成方法、装置、智能体、电子设备及存储介质
音频特征 注意力机制 视频生成方法 时序 随机噪声
3
一种未挂牌非机动车驾驶员识别方法、系统及程序产品
驾驶员识别方法 非机动车 抓拍设备 正面 时间差
4
基于血尿酸预测疾病风险的方法及装置
疾病风险预测模型 预测疾病风险 人脸 光电容积脉搏波信号 样本
5
基于脉冲扩散模型的帧间图像辅助信息生成方法
信息生成方法 脉冲 重构 视频帧 图像处理技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号