一种输入语音自动生成口型和表情的方法

AITNT
正文
推荐专利
一种输入语音自动生成口型和表情的方法
申请号:CN202410798138
申请日期:2024-06-20
公开号:CN118471250B
公开日期:2025-02-07
类型:发明专利
摘要
本发明属于语音处理技术领域,涉及一种输入语音自动生成口型和表情的方法,包括:将输入的语音进行特征提取,得到音频特征序列;构建音生视频模型,包括:将不同语言和地区的人脸讲话视频,输入采用神经动态时间规整、基于注意力的时间对齐和音视频时间位置编码同步的Diffusion Transformer模型,训练得到音生视频模型;将音频特征序列输入音生视频模型,得到口型表情同步视频。本发明能够根据输入的语音,生成对应的口型表情同步视频,能够提升用户体验,进一步提高了生成视频的同步精度,提高了模型实时处理能力,生成的口型表情同步视频更加自然,能够跨语言和文化背景工作,适应全球不同地区的内容需求。
技术关键词
音频特征 动态时间规整 语音 注意力 人脸 编码器 视频帧 序列 网络 补丁 噪声 对音视频 样本 信号 矩阵 算法
系统为您推荐了相关专利信息
1
视频超分处理方法、装置、电子设备
独立特征 视频 分支 注意力 特征选择
2
多模态人脸活体检测方法、装置、电子设备及介质
人脸活体检测方法 可见光图像 权重特征 融合特征 多模态
3
基于用户生物特征生成虚拟角色的体感舞蹈游戏方法
舞蹈游戏 机器学习模型 年龄识别模型 生物 频谱特征
4
基于集群划分与注意力机制的年尺度风电功率预测方法
风电功率预测方法 风电功率预测模型 注意力机制 集群 时间序列关系
5
基于大模型的分布式光储微电网控制系统及能源管理方法
光储微电网 分布式控制策略 能源管理方法 光伏发电量 能源管理模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号