摘要
本申请提出一种基于文本语音相关性判别生成动作序列的大模型训练方法,包括:获取目标语义特征,目标语义特征为同一文本内容对应的文本语义特征和语音语义特征融合生成的;将所述目标语义特征输入至多模态融合特征生成模型,输出对应的动作序列;基于所述目标语义特征和所述动作序列,计算所述多模态融合特征生成模型的损失函数值;基于所述损失函数值调整所述多模态融合特征生成模型的模型参数值,继续训练,直到满足预设的训练完成条件,得到训练好的多模态融合特征生成模型。本申请实施例通过利用同一文本内容对应的文本语义特征和语音语义特征融合生成的语义特征指导人体说话动作的生成,从而输出自然流畅合理的人体动画。
技术关键词
语义特征
融合特征
文本
语音
模型训练方法
多模态
动作序列生成方法
生成动作
解码器
处理器
可读存储介质
存储器
编码器
电子设备
人体
动画
计算机
策略
系统为您推荐了相关专利信息
自动教学系统
自动教学方法
视频监控模块
深度学习算法
人体骨架
可见光图像
红外光
识别模型训练方法
行人重识别模型
语义
胎儿心脏
超声影像数据
图像半监督分类
融合特征
误差