摘要
本发明涉及一种车辆控制方法、装置、设备及介质,该方法包括:获取车辆中目标用户的语音数据和视频数据,并将语音数据和视频数据输入指令生成模型,获取指令生成模型输出的目标指令文本。之后,通过目标指令文本对车辆进行控制。其中,指令生成模型用于对语音数据对应的音频特征以及视频数据对应的图像特征进行融合,进而生成目标指令文本,音频特征包括第一文本子特征和第一情绪子特征,图像特征包括第二文本子特征和第二情绪子特征,第一情绪子特征用于表示目标用户说话的语气、语调、音量中的至少一项,第二情绪子特征用于表示目标用户的面部表情和/或唇部变化。本发明提高了对车辆控制的准确度,提高用户的驾乘体验。
技术关键词
音频特征
计算机执行指令
语音
数据
文本
车辆控制方法
视频
滤波器系数
生成图像特征
处理器
麦克风
推理架构
车辆控制装置
词语
输入端
可读存储介质
编码
系统为您推荐了相关专利信息
聚乳酸无纺布
抗菌
性能检测方法
抑菌剂
图谱特征
城轨车辆车门
数字孪生模型
集成调度方法
多层级结构
多尺度