摘要
本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
技术关键词
多模态交互方法
意图
图像
车内摄像头
文本
语音
视觉信息相融合
非暂态计算机可读存储介质
社交
媒体
电子设备
视角
车辆行驶状态
人机交互技术
处理器
人脸
风格
移动终端
系统为您推荐了相关专利信息
激光点云数据
数字地表模型
基因组变异数据
基因敲除载体
基因过表达载体
姿态估计算法
智慧工地
关键点
防护装备
预警方法
复合绝缘子
陶瓷绝缘子
自动检测方法
制冷红外热像仪
循环神经网络模型
卫星遥感影像
变化分析方法
植被
典型生态系统
红树林信息