音频生成方法、深度学习模型的训练方法和装置

AITNT
正文
推荐专利
音频生成方法、深度学习模型的训练方法和装置
申请号:CN202511341071
申请日期:2025-09-18
公开号:CN120977339A
公开日期:2025-11-18
类型:发明专利
摘要
本公开提供了一种音频生成方法、深度学习模型的训练方法和装置,涉及人工智能技术领域,尤其涉及深度学习、对比学习和计算机视觉技术领域。具体实现方案为:响应于针对视频中的目标对象的交互式选择操作,提取目标对象在视频的各个视频帧中的视觉特征;根据视觉特征,生成与目标对象的动作相匹配的初始音频;以及根据目标对象在视频的各个视频帧中的画面占比,调整初始音频的音量,得到目标音频。
技术关键词
深度学习模型 视觉特征 对象 音频生成方法 样本 音频特征 音视频 画面 计算机视觉技术 人工智能技术 计算机程序产品 模块 训练装置 电子设备 处理器通信 生成装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号