摘要
基于教案驱动的教育虚拟人生成方法、装置、设备和介质,涉及虚拟人技术领域。方法包含:获取语音文件。获取第一图像帧。重复执行后续步骤直至语音结束,获取图像帧序列。并进行同步合成,获取虚拟人的教学视频。提取目标帧的人像特征和下一帧的音频特征并对齐,获取多模态对齐特征。从人像特征提取身份特征参数、表情系数参数和姿态参数,然后由FLAME模型转为人脸三维点云信息,并进行位置编码,获取查询嵌入特征。以查询嵌入特征和多模态对齐特征为主输入,以音频特征为条件进行融合,获取视觉对齐特征。将视觉对齐特征、身份特征参数、表情系数参数和姿态参数融合调制成高斯表示,并投影至二维图像平面再融合,获取下一帧的图像帧。
技术关键词
音频特征
三维点云信息
嵌入特征
对齐模块
生成方法
多模态注意力
参数
人脸
注意力机制
身份
语音
视觉
协方差矩阵
前馈神经网络
人像特征
图像嵌入
特征提取模块
系统为您推荐了相关专利信息
多模态特征
多模态对话
识别模块
智能客服方法
意图识别模型
检测点
转移概率矩阵
检测模型生成方法
线路
时间段
图像生成模型
矩阵
参数
图像生成方法
计算机可执行指令