基于多模态视觉-语言模型的智能眼镜及环境感知方法

AITNT
正文
推荐专利
基于多模态视觉-语言模型的智能眼镜及环境感知方法
申请号:CN202510974944
申请日期:2025-07-15
公开号:CN120859816A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于多模态视觉‑语言模型的智能眼镜及环境感知方法,涉及视障辅助技术领域,包括:眼镜主体、摄像头单元、边缘计算单元、骨传导音频单元、触控交互单元、电源管理单元和无线通信单元;边缘计算模块内置轻量化多模态视觉‑语言模型,用于对采集的环境图像进行预处理、语义分析并生成环境描述信息,由骨传导音频单元,以语音形式播报给佩戴者;本发明利用多模态视觉‑语言模型同步处理视觉与语言特征,有效识别障碍物、交通信号、文字招牌及场景语义,感知维度更为全面,能够提供丰富的环境语义描述,从而实现复杂环境中对障碍物、标识、文字等多元素的准确识别,提高对视障人士导航指引的安全性。
技术关键词
环境感知方法 多模态 智能眼镜 摄像头单元 视觉 眼镜主体 音频单元 高优先级事件 电源管理单元 无线通信单元 结构化场景 语义向量 超声波传感器单元 识别物体类别 知识蒸馏技术 语音 视障辅助
系统为您推荐了相关专利信息
1
一种基于机器视觉的散热片表面瑕疵检测方法及系统
表面瑕疵检测方法 散热片 图像边缘检测 视觉 表面瑕疵检测系统
2
基于几何先验与条件扩散的零样本图像去模糊方法及系统
图像去模糊方法 深度图 去模糊图像 编解码模块 预训练模型
3
围术期个体化最佳心排量精准评估及术中管理优化方法
管理优化方法 多生理参数采集 皮尔逊相关系数 个性化阈值 血流动力学管理
4
用于实验交互行为识别的记忆网络增强方法及应用
记忆 视频 视觉特征 网络 全局特征融合
5
一种基于垂向实测数据的三维噪声地图校准绘制方法
三维噪声 绘制方法 噪声数据 三维可视化技术 校准
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号