摘要
本发明提供了一种智能情感交互的数字人实时问答方法、系统、设备和介质,包括:通过人脸识别和人脸属性分析捕捉不同人物的身份信息和面部表情等,基于语音识别和语音情感分析获取用户的指令及情绪;通过大语言模型融合用户的指令、身份和情绪等信息输出合适的回答,并可以对关联问题联系上下文进行多轮问答,同时结合语境分析和情感分析对大模型的回答赋予合适的情感并计算在某个时机插入何种表情、动作;使用合适的情感进行语音合成,利用口型生成算法实现音频和数字人口型的吻合;最后,在数字人语音播报的同时结合语境和情感在合适的时机进行表情和动作生成。本发明能够实现具有高度智能情感交互的高拟真数字人实时问答。
技术关键词
人脸表情
智能情感交互
大语言模型
多模态信息
语句
人脸关键点检测
人脸检测算法
抽取算法
预测编码器
问答方法
图像
音频
身份
人脸属性分析
语音情感分析
人脸特征向量
系统为您推荐了相关专利信息
分类系统
多模态信息融合
深度学习分类
EDA技术
BERT模型