一种高保真生成式放大音频驱动唇形幅度的方法及装置

AITNT
正文
推荐专利
一种高保真生成式放大音频驱动唇形幅度的方法及装置
申请号:CN202510543901
申请日期:2025-04-28
公开号:CN120452468A
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开一种高保真生成式放大音频驱动唇形幅度的方法及装置,其中,高保真生成式放大音频驱动唇形幅度的方法包括:通过语音预训练模型提取音频信息中的音频特征;将音频特征中的高频音频特征进行放大,得到高频放大的音频信息;将高频放大的音频信息输入至高频音频特征提取模型中,提取出不同尺寸的音频特征;将不同尺寸的音频特征分别融合到语音驱动嘴唇合成模型的生成器中,分别控制生成器的唇形幅度生成程度。本发明的一种高保真生成式放大音频驱动唇形幅度的方法,通过高频特征放大与多尺度融合,解决了语音驱动唇形合成中的细节丢失问题,可广泛应用于虚拟现实、影视后期及远程教育领域。
技术关键词
音频特征提取 卷积编码器 卷积特征 预训练模型 计算机可执行程序 语音 计算机可读记录介质 尺寸 高频特征 频段 处理器 模块 存储器 电子设备
系统为您推荐了相关专利信息
1
一种用于对机械臂进行控制的方法和装置
机械臂坐标系 手眼关系 计算机可执行指令 卷积特征 图像传感器
2
一种基于无人机的光伏电力设备故障检测方法及系统
光伏电力设备 无人机 故障检测方法 电力模块 图像智能识别技术
3
一种基于轻量门控机制的大模型推理优化方法和系统
机制 预训练模型 动态 轻量级神经网络 sigmoid函数
4
一种面向小样本的糖尿病视网膜病变的分类方法及系统
糖尿病视网膜病变 分类方法 预训练模型 图像数据预处理 掩膜矩阵
5
一种基于大模型的电力审计SQL语句生成方法
语句生成方法 数据 人工智能模型 文本 预训练模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号