摘要
本发明提供一种基于语音交互与视觉透视的网约车乘客位置快速定位方法,涉及智能交通技术领域,其包含以下步骤:在汽车上布施传感器、摄像头、金属反光幕布及投影仪;采集司机的语音信息,设计智能化语音唤醒模型;构建场景化语音识别模型;使用“声音‑图像”的多级跨模态检测模型面向全景图像检测行人目标,获取行人目标的外观与姿态特征检测信息;设计“静态特征”匹配方法与“动态特征”识别模型,实现乘客特征信息匹配;基于匹配结果,确定乘客的位置信息;通过全景图像中的位置估计,获取以车辆为参考原点的乘客方向;根据方向估计结果,控制车内投影仪,将该乘客信息投影在车内相应方向的幕布上,并同时利用语音信息给予提示。
技术关键词
快速定位方法
静态特征
图像
视觉
投影仪
语音唤醒模型
司机
多头注意力机制
语音识别模型
幕布
坐标
跨模态
人体关键点
骨骼特征
文本编码器
特征金字塔
车载摄像头
系统为您推荐了相关专利信息
回环检测方法
词典数据库
构建词典
神经网络架构搜索
图像全局特征
安全监控方法
电子围栏系统
无人机巡检
安全监控系统
视频监控系统