摘要
本发明涉及金融、医疗健康及人工智能技术领域,提供一种TTS语音与3D嘴型同步生成方法、装置、设备及介质,利用小样本自适应训练引擎,基于迁移学习框架训练得到TTS语音与3D嘴型的同步生成模型,提高了模型的泛化能力及训练效率;利用多模态联合编码与动态权重分配模块进行联合编码,提高了生成结果的精度;基于扩散‑自回归的混合生成模块得到3D嘴型动态序列,融合了扩散模型的细节生成能力及自回归模型的时序连贯性,提升了生成精度和实时性;基于跨模态注意力引导的实时同步模块得到同步调整后的3D嘴型参数及情感匹配的面部动作序列并生成目标视频,实现了多模态动态融合,提升了唇动‑语音同步精度,且增强了情感表达的真实性。
技术关键词
多模态
动态权重分配
生成方法
序列
文本
肌肉电信号
跨模态
面部
生成指令
数据
模块
编码
注意力
语音同步
计算机设备
生成参数
语音特征
系统为您推荐了相关专利信息
决策管理方法
负荷特征
负荷预测模型
推理机制
因果关系挖掘
疾病特征
大语言模型
文本
医疗问答方法
生成答案
寿命
智能算法
模糊逻辑算法
时间序列特征
特征窗口
项目数据分析方法
多模态
玻尔兹曼机
异常事件
图谱