摘要
本发明公开一种高保真生成式放大音频驱动唇形幅度的方法及装置,其中,高保真生成式放大音频驱动唇形幅度的方法包括:通过语音预训练模型提取音频信息中的音频特征;将音频特征中的高频音频特征进行放大,得到高频放大的音频信息;将高频放大的音频信息输入至高频音频特征提取模型中,提取出不同尺寸的音频特征;将不同尺寸的音频特征分别融合到语音驱动嘴唇合成模型的生成器中,分别控制生成器的唇形幅度生成程度。本发明的一种高保真生成式放大音频驱动唇形幅度的方法,通过高频特征放大与多尺度融合,解决了语音驱动唇形合成中的细节丢失问题,可广泛应用于虚拟现实、影视后期及远程教育领域。
技术关键词
音频特征提取
卷积编码器
卷积特征
预训练模型
计算机可执行程序
语音
计算机可读记录介质
尺寸
高频特征
频段
处理器
模块
存储器
电子设备
系统为您推荐了相关专利信息
机械臂坐标系
手眼关系
计算机可执行指令
卷积特征
图像传感器
光伏电力设备
无人机
故障检测方法
电力模块
图像智能识别技术
机制
预训练模型
动态
轻量级神经网络
sigmoid函数
糖尿病视网膜病变
分类方法
预训练模型
图像数据预处理
掩膜矩阵
语句生成方法
数据
人工智能模型
文本
预训练模型