一种语音驱动的时效性强的数字人口型合成算法

AITNT
正文
推荐专利
一种语音驱动的时效性强的数字人口型合成算法
申请号:CN202510191234
申请日期:2025-02-20
公开号:CN120128763A
公开日期:2025-06-10
类型:发明专利
摘要
本发明涉及一种语音驱动的时效性强的数字人口型合成算法,本发明通过引入lip‑reading expert和预训练视频自动编码器作为监督,精心设计的特征融合模块和训练损失函数等技巧来提高数字人口型合成的效果,通过逐通道卷积、线性注意力等技巧来提高数字人口型合成的速度。并且具备可控张嘴幅度和多语言支持的功能。
技术关键词
音频特征 时效性 图像编码器 音频编码器 生成对抗网络 注意力 语音 图像解码器 算法 表达式 自动编码器 多模态信息融合 短视频 人脸关键点 模块 画面
系统为您推荐了相关专利信息
1
基于时间衰减与动态权重的非货币资源流通方法及系统
补偿智能 资源匹配模型 动态 账户 指令
2
基于多尺度特征学习的语音增强方法、装置、设备及介质
多尺度特征学习 多尺度卷积神经网络 频域特征 频谱特征 语音
3
一种基于特征映射的审核规则阈值动态推荐方法、系统、设备及介质
动态推荐方法 审核规则 生成对抗网络 多模态特征融合 文本特征向量
4
适用多场景模式的AI可视化音视频软件管理系统
多场景模式 软件管理系统 对音视频 可视化工具 标签
5
一种多组分数字岩心重构方法、装置、设备及介质
生成对抗网络模型 数字岩心重构方法 多组分结构 岩心图像 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号