摘要
本发明涉及一种车辆控制方法、装置、设备及介质,该方法包括:获取车辆中目标用户的语音数据和视频数据,并将语音数据和视频数据输入指令生成模型,获取指令生成模型输出的目标指令文本。之后,通过目标指令文本对车辆进行控制。其中,指令生成模型用于对语音数据对应的音频特征以及视频数据对应的图像特征进行融合,进而生成目标指令文本,音频特征包括第一文本子特征和第一情绪子特征,图像特征包括第二文本子特征和第二情绪子特征,第一情绪子特征用于表示目标用户说话的语气、语调、音量中的至少一项,第二情绪子特征用于表示目标用户的面部表情和/或唇部变化。本发明提高了对车辆控制的准确度,提高用户的驾乘体验。
技术关键词
音频特征
计算机执行指令
语音
数据
文本
车辆控制方法
视频
滤波器系数
生成图像特征
处理器
麦克风
推理架构
车辆控制装置
词语
输入端
可读存储介质
编码
系统为您推荐了相关专利信息
音频
模式
光线传感器
位置追踪功能
运动传感器数据
供热管道
三维仿真模型
群智能优化算法
室内供热系统
融合时空特征
自动售票机
人脸识别检测
交互方法
反馈信息控制
图像
潜力评估方法
负荷可调
模型训练模块
资源
脱碳装置