摘要
本发明属于语音处理技术领域,涉及一种输入语音自动生成口型和表情的方法,包括:将输入的语音进行特征提取,得到音频特征序列;构建音生视频模型,包括:将不同语言和地区的人脸讲话视频,输入采用神经动态时间规整、基于注意力的时间对齐和音视频时间位置编码同步的Diffusion Transformer模型,训练得到音生视频模型;将音频特征序列输入音生视频模型,得到口型表情同步视频。本发明能够根据输入的语音,生成对应的口型表情同步视频,能够提升用户体验,进一步提高了生成视频的同步精度,提高了模型实时处理能力,生成的口型表情同步视频更加自然,能够跨语言和文化背景工作,适应全球不同地区的内容需求。
技术关键词
音频特征
动态时间规整
语音
注意力
人脸
编码器
视频帧
序列
网络
补丁
噪声
对音视频
样本
信号
矩阵
算法
系统为您推荐了相关专利信息
人脸活体检测方法
可见光图像
权重特征
融合特征
多模态
舞蹈游戏
机器学习模型
年龄识别模型
生物
频谱特征
风电功率预测方法
风电功率预测模型
注意力机制
集群
时间序列关系
光储微电网
分布式控制策略
能源管理方法
光伏发电量
能源管理模块