摘要
本发明公开了一种基于多模态视觉‑语言模型的智能眼镜及环境感知方法,涉及视障辅助技术领域,包括:眼镜主体、摄像头单元、边缘计算单元、骨传导音频单元、触控交互单元、电源管理单元和无线通信单元;边缘计算模块内置轻量化多模态视觉‑语言模型,用于对采集的环境图像进行预处理、语义分析并生成环境描述信息,由骨传导音频单元,以语音形式播报给佩戴者;本发明利用多模态视觉‑语言模型同步处理视觉与语言特征,有效识别障碍物、交通信号、文字招牌及场景语义,感知维度更为全面,能够提供丰富的环境语义描述,从而实现复杂环境中对障碍物、标识、文字等多元素的准确识别,提高对视障人士导航指引的安全性。
技术关键词
环境感知方法
多模态
智能眼镜
摄像头单元
视觉
眼镜主体
音频单元
高优先级事件
电源管理单元
无线通信单元
结构化场景
语义向量
超声波传感器单元
识别物体类别
知识蒸馏技术
语音
视障辅助
系统为您推荐了相关专利信息
表面瑕疵检测方法
散热片
图像边缘检测
视觉
表面瑕疵检测系统
图像去模糊方法
深度图
去模糊图像
编解码模块
预训练模型
管理优化方法
多生理参数采集
皮尔逊相关系数
个性化阈值
血流动力学管理
三维噪声
绘制方法
噪声数据
三维可视化技术
校准