基于音频驱动的视频生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510532506

申请日期：2025-04-25

公开号：CN120412627A

公开日期：2025-08-01

类型：发明专利

摘要

本发明涉及人工智能领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于音频驱动的视频生成方法、装置、设备及介质，包括：获取驱动音频与参考视频；对驱动音频分别进行语音识别和声音特征提取，根据解耦的语义特征和说话人嵌入特征生成音频模态下的复合特征；对参考视频进行多层编码处理，得到多层人脸图像特征；根据多层人脸图像特征进行风格特征提取，得到风格特征；将音频模态下的复合特征、多层人脸图像特征以及风格特征输入到预先完成生成对抗训练的视频生成器中，对输入的特征进行多模态特征融合后融入空间语义信息解码生成与驱动音频对应的虚拟人视频。通过音频解耦得和多模态特征融合，提升虚拟人视频生成的自然性和真实性。

技术关键词

人脸图像特征视频生成方法音频多模态特征融合语义特征嵌入特征视频帧非易失性计算机可读存储介质声音特征提取生成训练数据计算机可执行指令解码视频编码器样本风格视频特征提取视频生成装置

系统为您推荐了相关专利信息

一种基于自适应语义理解的多轮对话意图识别方法及系统

意图识别方法多层次语义特征多轮对话语义向量空间分类器

游戏高光视频生成方法及其装置、设备、介质

视频生成方法边缘检测模型游戏文本识别图像特征信息

基于多模态特征融合的抗寄生虫药物靶点亲和力预测方法

多模态特征融合序列特征结构特征提取样本相互作用特征

基于Transformer的多场景诈骗电话识别系统

识别系统词嵌入技术文本注意力机制 Softmax函数

基于多模态特征融合的司机推荐系统

多模态特征融合推荐系统司机数据处理模块排序模型

基于音频驱动的视频生成方法、装置、设备及介质

站点导航

APP 下载