摘要
本发明涉及计算机视觉领域和图像处理领域,特别涉及一种基于多模态视觉大模型的导盲场景识别方法。包括数据获取,采集典型导盲场景的图像或视频数据,标注后构建数据集,引入图像提示机制并划分训练集和测试集;构建多模态视觉大模型,包含图像编码、语义提示编码、视觉语言融合、场景分析语义解码模块;对模型测试与调优,采用多任务损失函数优化;构建导盲辅助系统,集成图像采集、视觉理解、语音播报功能,实现闭环流程。本发明解决了现有导盲识别技术目标依赖性强、通用性差、语义理解能力弱的问题,支持复杂场景精准识别与语义反馈,提升导盲系统智能化水平与环境适应能力。
技术关键词
场景识别方法
多模态
语义
视觉
图像编码
交叉注意力机制
语音播报功能
解码模块
图像特征向量
辅助系统
图像块
编码模块
数据
编码机制
多任务损失函数
生成自然语言
个性化语音
系统为您推荐了相关专利信息
激光雷达传感器
地图
硬件设备
系统自检
静态障碍物
行人特征
流量估计方法
视频行人
多层感知机
卷积神经网络提取
网络训练方法
汉字结构
语义
水印嵌入方法
对抗性