摘要
本申请涉及信息交互技术领域。基于多模态交互的酒店智能语音对话方法,包括:获取用户在酒店语音对话中的多模态数据,其中,所述多模态数据包括语音数据、面部表情视频数据和文本交互数据;根据所述语音数据获取用户声学特征,并根据所述用户声学特征获取语音情感特征;根据所述面部表情视频数据获取用户视觉特征,并根据所述用户视觉特征获取视觉情感特征;根据所述文本交互数据获取用户文本特征,并根据所述用户文本特征获取文本情感特征。本发明通过融合语音、面部表情视频和文本交互数据,提升了用户情感状态与需求意图的识别精度,解决了传统单模态系统信息缺失导致的误判问题。
技术关键词
情感特征
智能语音对话
多模态交互
面部关键点定位
文本
声学特征
多模态特征
梅尔频率倒谱系数
数据
特征提取模块
意图
视觉特征信息
面部表情特征
短时傅里叶变换
视频
系统为您推荐了相关专利信息
情感语音转换方法
频谱特征
声学特征
韵律特征
连续小波变换分析
多模态特征融合
编码特征
分类神经网络
预训练模型
图像编码器
风险评分模型
多模态
管理方法
图像特征向量
发票