基于音频驱动的视频生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于音频驱动的视频生成方法、装置、设备及介质
申请号:CN202510532506
申请日期:2025-04-25
公开号:CN120412627A
公开日期:2025-08-01
类型:发明专利
摘要
本发明涉及人工智能领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于音频驱动的视频生成方法、装置、设备及介质,包括:获取驱动音频与参考视频;对驱动音频分别进行语音识别和声音特征提取,根据解耦的语义特征和说话人嵌入特征生成音频模态下的复合特征;对参考视频进行多层编码处理,得到多层人脸图像特征;根据多层人脸图像特征进行风格特征提取,得到风格特征;将音频模态下的复合特征、多层人脸图像特征以及风格特征输入到预先完成生成对抗训练的视频生成器中,对输入的特征进行多模态特征融合后融入空间语义信息解码生成与驱动音频对应的虚拟人视频。通过音频解耦得和多模态特征融合,提升虚拟人视频生成的自然性和真实性。
技术关键词
人脸图像特征 视频生成方法 音频 多模态特征融合 语义特征 嵌入特征 视频帧 非易失性计算机可读存储介质 声音特征提取 生成训练数据 计算机可执行指令 解码 视频编码器 样本 风格 视频特征提取 视频生成装置
系统为您推荐了相关专利信息
1
一种基于自适应语义理解的多轮对话意图识别方法及系统
意图识别方法 多层次语义特征 多轮对话 语义向量空间 分类器
2
游戏高光视频生成方法及其装置、设备、介质
视频生成方法 边缘检测模型 游戏 文本识别 图像特征信息
3
基于多模态特征融合的抗寄生虫药物靶点亲和力预测方法
多模态特征融合 序列特征 结构特征提取 样本 相互作用特征
4
基于Transformer的多场景诈骗电话识别系统
识别系统 词嵌入技术 文本 注意力机制 Softmax函数
5
基于多模态特征融合的司机推荐系统
多模态特征融合 推荐系统 司机 数据处理模块 排序模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号