一种输入语音自动生成口型和表情的方法

正文

推荐专利

一种输入语音自动生成口型和表情的方法

申请号：CN202410798138

申请日期：2024-06-20

公开号：CN118471250B

公开日期：2025-02-07

类型：发明专利

摘要

本发明属于语音处理技术领域，涉及一种输入语音自动生成口型和表情的方法，包括：将输入的语音进行特征提取，得到音频特征序列；构建音生视频模型，包括：将不同语言和地区的人脸讲话视频，输入采用神经动态时间规整、基于注意力的时间对齐和音视频时间位置编码同步的Diffusion Transformer模型，训练得到音生视频模型；将音频特征序列输入音生视频模型，得到口型表情同步视频。本发明能够根据输入的语音，生成对应的口型表情同步视频，能够提升用户体验，进一步提高了生成视频的同步精度，提高了模型实时处理能力，生成的口型表情同步视频更加自然，能够跨语言和文化背景工作，适应全球不同地区的内容需求。

技术关键词

音频特征动态时间规整语音注意力人脸编码器视频帧序列网络补丁噪声对音视频样本信号矩阵算法

系统为您推荐了相关专利信息

视频超分处理方法、装置、电子设备

独立特征视频分支注意力特征选择

多模态人脸活体检测方法、装置、电子设备及介质

人脸活体检测方法可见光图像权重特征融合特征多模态

基于用户生物特征生成虚拟角色的体感舞蹈游戏方法

舞蹈游戏机器学习模型年龄识别模型生物频谱特征

基于集群划分与注意力机制的年尺度风电功率预测方法

风电功率预测方法风电功率预测模型注意力机制集群时间序列关系

基于大模型的分布式光储微电网控制系统及能源管理方法

光储微电网分布式控制策略能源管理方法光伏发电量能源管理模块

一种输入语音自动生成口型和表情的方法

站点导航

APP 下载