摘要
本发明涉及一种交互式多轮对话数字人建模方法,包括:提取交互式多轮对话场景下的双人多模态特征,包括当前对话轮次下说话人的语音特征和表情特征,以及当前对话轮次下聆听者在上一对话轮次中的语音特征;基于时间维度对提取的所述双人多模态特征进行时序对齐和强化,得到联合特征序列;根据所述联合特征序列,基于融合注意力机制的编解码器,生成当前对话轮次下聆听者的语音文本以及相同步的表情参数;根据当前对话轮次下聆听者的表情参数,生成对应的3D面部动画帧序列。
技术关键词
多轮对话场景
多模态特征
语音特征
融合注意力机制
表情特征
双人
人脸三维建模方法
人脸表情
序列
编解码器
双向长短期记忆网络
参数
建模系统
语音活动检测
说话人身份
音频编码器
系统为您推荐了相关专利信息
多源异构数据融合
风险预测模型
风险预测方法
多维特征数据
多模态特征
偏心检测方法
多模态特征
融合特征
一维卷积神经网络
深度学习模型
智能识别方法
文本编码器
图像编码器
分类识别模型
多模态特征
病理图像分类方法
甲状腺超声图像
多模态特征融合
局部二值模式特征
甲状腺结节良恶性
拓扑特征
多模态特征
预警模型
语义向量
三元组损失函数