摘要
本发明实施例提供了一种车辆多模态交互方法、装置、电子设备及存储介质,包括:获取目标车辆内部的目标用户对应的手指指向区域;采集所述手指指向区域对应的车辆外部图像;在所述车辆外部图像中确定与所述手指指向区域对应的多尺度图像,并基于所述多尺度图像进行多尺度拼接,得到目标拼接图像;采集所述目标用户对应的语音数据;将所述目标拼接图像和所述语音数据输入至预设多模态交互模型,得到回复文本。即本发明实施例通过结合用户的手势指向和语音输入,实现了更加直观和自然的交互体验,综合分析图像和语音信息,从而生成准确且符合用户意图的回复文本。
技术关键词
手部关键点
多模态交互方法
骨骼关键点
图像
手部姿态估计
语音
车辆
多尺度
侧面车窗
车载播放装置
文本
关节
车内摄像头
坐标系
数据
电子设备
处理器
意图
系统为您推荐了相关专利信息
密度测量方法
树木年轮
亚克力
图像处理模块
图像分析软件
定量预测方法
茶多酚含量
参数
采集茶叶
融合特征
检测油茶
智能检测方法
亲和力
智能检测系统
图像分割