图像生成模型训练方法、基于音频的图像生成方法及设备

正文

推荐专利

申请号：CN202411057462

申请日期：2024-08-02

公开号：CN118861353A

公开日期：2024-10-29

类型：发明专利

摘要

本申请实施例公开了图像生成模型训练方法、基于音频的图像生成方法及设备，用于生成对应人像特点与音频数据的人声特点匹配的图像。本申请实施例包括：获取包括第一音频数据、第二音频数据、图像数据、及与第一音频数据和图像数据对应的年龄和性别标签的训练数据；使用年龄和性别标签、第一音频数据和图像数据分别训练得到音频分类器、图像分类器；基于预训练的图像生成模型处理第二音频数据获得预测图像，第一音频数据与第二音频数据不完全相同；将第二音频数据输入音频分类器获得预测人声特点标签，将预测图像输入图像分类器获得预测人像特点标签；基于预测人声特点标签和预测人像特点标签调整预训练的图像生成模型，得到训练好的图像生成模型。

技术关键词

图像生成模型音频分类器图像分类器标签数据图像生成方法人声年龄计算机存储介质中央处理器存储器输入输出接口参数生成指令计算机设备

系统为您推荐了相关专利信息

一种基于AI视觉的地质灾害监测预警方法

地质灾害监测预警方法边缘计算机图片地质灾害监测预警技术地质灾害监测预警系统

一种基于液压支架结构件焊接程序的参数化编程方法

液压支架结构件焊接参数化编程方法焊接机器人机器人焊接工作站系列

一种基于AC-DCC模型的动态代价敏感故障诊断系统

故障诊断系统计划动态策略无标签样本

一种基于区块链的个人生物隐私信息保护方法

隐私信息保护方法人脸检测模型检测人脸图像去中心化系统服务器

芯片设置方法、装置、终端设备以及存储介质

探测设备校准芯片程序终端设备

图像生成模型训练方法、基于音频的图像生成方法及设备

站点导航

APP 下载