摘要
本发明公开了一种基于多模态交互的智能数字人训练方法和系统,涉及数字人训练技术领域,该方法包括:设计触摸反馈策略,根据不同触摸信息,定义数字人对应的输出;语音输入转化为文本;生成自然语言回复;利用语音合成技术转换为数字人语音输出;捕捉运动的动态特征并转换为数字人的动作;识别并提取面部特征点,构建数字人的面部模型;分析面部特征点的相对位置和运动,映射到数字人的面部模型;将音频的时间序列与数字人的唇部运动轨迹进行对齐;构建基础的人物模型;实时分析用户输入的意图和情感;生成综合相应策略,决定数字人在当前情境下应采取的动作、面部表情、语音和外观反馈。
技术关键词
多模态交互
人物模型
训练系统
面部特征点
生成自然语言
反馈策略
文本
动作捕捉模块
时间序列特征
意图
语音识别模块
信号处理模块
梅尔频率倒谱系数