TTS语音与3D嘴型同步生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202511057673

申请日期：2025-07-29

公开号：CN120954439A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及金融、医疗健康及人工智能技术领域，提供一种TTS语音与3D嘴型同步生成方法、装置、设备及介质，利用小样本自适应训练引擎，基于迁移学习框架训练得到TTS语音与3D嘴型的同步生成模型，提高了模型的泛化能力及训练效率；利用多模态联合编码与动态权重分配模块进行联合编码，提高了生成结果的精度；基于扩散‑自回归的混合生成模块得到3D嘴型动态序列，融合了扩散模型的细节生成能力及自回归模型的时序连贯性，提升了生成精度和实时性；基于跨模态注意力引导的实时同步模块得到同步调整后的3D嘴型参数及情感匹配的面部动作序列并生成目标视频，实现了多模态动态融合，提升了唇动‑语音同步精度，且增强了情感表达的真实性。

技术关键词

多模态动态权重分配生成方法序列文本肌肉电信号跨模态面部生成指令数据模块编码注意力语音同步计算机设备生成参数语音特征

系统为您推荐了相关专利信息

一种基于知识图谱的负荷智慧决策管理方法

决策管理方法负荷特征负荷预测模型推理机制因果关系挖掘

多模态大模型的评测方法、装置、设备、存储介质及产品

多模态生成测试数据评测方法答题答案

基于大语言模型的医疗问答方法和装置

疾病特征大语言模型文本医疗问答方法生成答案

一种并联水泵智能算法优化组合及控制方法

寿命智能算法模糊逻辑算法时间序列特征特征窗口

多模态项目数据分析方法

项目数据分析方法多模态玻尔兹曼机异常事件图谱

TTS语音与3D嘴型同步生成方法、装置、设备及介质

站点导航

APP 下载