基于多模态视觉-语言模型的智能眼镜及环境感知方法

正文

推荐专利

申请号：CN202510974944

申请日期：2025-07-15

公开号：CN120859816A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于多模态视觉‑语言模型的智能眼镜及环境感知方法，涉及视障辅助技术领域，包括：眼镜主体、摄像头单元、边缘计算单元、骨传导音频单元、触控交互单元、电源管理单元和无线通信单元；边缘计算模块内置轻量化多模态视觉‑语言模型，用于对采集的环境图像进行预处理、语义分析并生成环境描述信息，由骨传导音频单元，以语音形式播报给佩戴者；本发明利用多模态视觉‑语言模型同步处理视觉与语言特征，有效识别障碍物、交通信号、文字招牌及场景语义，感知维度更为全面，能够提供丰富的环境语义描述，从而实现复杂环境中对障碍物、标识、文字等多元素的准确识别，提高对视障人士导航指引的安全性。

技术关键词

环境感知方法多模态智能眼镜摄像头单元视觉眼镜主体音频单元高优先级事件电源管理单元无线通信单元结构化场景语义向量超声波传感器单元识别物体类别知识蒸馏技术语音视障辅助

系统为您推荐了相关专利信息

一种基于机器视觉的散热片表面瑕疵检测方法及系统

表面瑕疵检测方法散热片图像边缘检测视觉表面瑕疵检测系统

基于几何先验与条件扩散的零样本图像去模糊方法及系统

图像去模糊方法深度图去模糊图像编解码模块预训练模型

围术期个体化最佳心排量精准评估及术中管理优化方法

管理优化方法多生理参数采集皮尔逊相关系数个性化阈值血流动力学管理

用于实验交互行为识别的记忆网络增强方法及应用

记忆视频视觉特征网络全局特征融合

一种基于垂向实测数据的三维噪声地图校准绘制方法

三维噪声绘制方法噪声数据三维可视化技术校准

基于多模态视觉-语言模型的智能眼镜及环境感知方法

站点导航

APP 下载