一种高保真生成式放大音频驱动唇形幅度的方法及装置

正文

推荐专利

申请号：CN202510543901

申请日期：2025-04-28

公开号：CN120452468A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开一种高保真生成式放大音频驱动唇形幅度的方法及装置，其中，高保真生成式放大音频驱动唇形幅度的方法包括：通过语音预训练模型提取音频信息中的音频特征；将音频特征中的高频音频特征进行放大，得到高频放大的音频信息；将高频放大的音频信息输入至高频音频特征提取模型中，提取出不同尺寸的音频特征；将不同尺寸的音频特征分别融合到语音驱动嘴唇合成模型的生成器中，分别控制生成器的唇形幅度生成程度。本发明的一种高保真生成式放大音频驱动唇形幅度的方法，通过高频特征放大与多尺度融合，解决了语音驱动唇形合成中的细节丢失问题，可广泛应用于虚拟现实、影视后期及远程教育领域。

技术关键词

音频特征提取卷积编码器卷积特征预训练模型计算机可执行程序语音计算机可读记录介质尺寸高频特征频段处理器模块存储器电子设备

系统为您推荐了相关专利信息

一种用于对机械臂进行控制的方法和装置

机械臂坐标系手眼关系计算机可执行指令卷积特征图像传感器

一种基于无人机的光伏电力设备故障检测方法及系统

光伏电力设备无人机故障检测方法电力模块图像智能识别技术

一种基于轻量门控机制的大模型推理优化方法和系统

机制预训练模型动态轻量级神经网络 sigmoid函数

一种面向小样本的糖尿病视网膜病变的分类方法及系统

糖尿病视网膜病变分类方法预训练模型图像数据预处理掩膜矩阵

一种基于大模型的电力审计SQL语句生成方法

语句生成方法数据人工智能模型文本预训练模型

一种高保真生成式放大音频驱动唇形幅度的方法及装置

站点导航

APP 下载