摘要
本公开提供了一种音频生成方法、深度学习模型的训练方法和装置,涉及人工智能技术领域,尤其涉及深度学习、对比学习和计算机视觉技术领域。具体实现方案为:响应于针对视频中的目标对象的交互式选择操作,提取目标对象在视频的各个视频帧中的视觉特征;根据视觉特征,生成与目标对象的动作相匹配的初始音频;以及根据目标对象在视频的各个视频帧中的画面占比,调整初始音频的音量,得到目标音频。
技术关键词
深度学习模型
视觉特征
对象
音频生成方法
样本
音频特征
音视频
画面
计算机视觉技术
人工智能技术
计算机程序产品
模块
训练装置
电子设备
处理器通信
生成装置