摘要
本申请公开了一种多模态信息识别的人机交互方法、装置、设备及存储介质,利用多种传感器融合人脸、眼球、语音、身体姿势等信息,实现多模态识别,增加人机交互的准确性和多样性,同时通过多模态信息判断用户的交互意图,识别不同说话者的方位和语音内容,实现被动或主动与不同用户进行连续的对话,解决了现有技术中唤醒词机制进行人机语音交互存在的嘈杂环境下识别准确率低,以及无法实现在多人对话场景中,可以与多人在对话内容和对话方式上进行流畅的对话的技术问题。
技术关键词
人机交互方法
多模态信息
生物识别信息
交互动作
人脸识别信息
存储程序代码
麦克风阵列
传感器模块
人机语音交互
音频特征信息
人机交互设备
人机交互装置
传感器融合
密度
音色特征
环境传感器
可读存储介质
系统为您推荐了相关专利信息
情绪识别模型
个性化方法
多模态信息
时间序列特征
多模态特征融合
识别方法
视觉特征
道路监控摄像机
交通信号灯状态
时序分析模块
高压开关柜
气体检测模块
进气管道
排气箱
进气模块
风格分类方法
融合多模态信息
构建分类模型
大语言模型
视觉特征