一种基于多模态视觉大模型的导盲场景识别方法

正文

推荐专利

申请号：CN202510536115

申请日期：2025-04-27

公开号：CN120472387A

公开日期：2025-08-12

类型：发明专利

摘要

本发明涉及计算机视觉领域和图像处理领域，特别涉及一种基于多模态视觉大模型的导盲场景识别方法。包括数据获取，采集典型导盲场景的图像或视频数据，标注后构建数据集，引入图像提示机制并划分训练集和测试集；构建多模态视觉大模型，包含图像编码、语义提示编码、视觉语言融合、场景分析语义解码模块；对模型测试与调优，采用多任务损失函数优化；构建导盲辅助系统，集成图像采集、视觉理解、语音播报功能，实现闭环流程。本发明解决了现有导盲识别技术目标依赖性强、通用性差、语义理解能力弱的问题，支持复杂场景精准识别与语义反馈，提升导盲系统智能化水平与环境适应能力。

技术关键词

场景识别方法多模态语义视觉图像编码交叉注意力机制语音播报功能解码模块图像特征向量辅助系统图像块编码模块数据编码机制多任务损失函数生成自然语言个性化语音

系统为您推荐了相关专利信息

基于激光雷达传感器的养殖舍清粪机器人及其控制方法

激光雷达传感器地图硬件设备系统自检静态障碍物

一种基于一对多匹配策略的视频行人流量估计方法

行人特征流量估计方法视频行人多层感知机卷积神经网络提取

智能算法测试方法、系统、设备及存储介质

智能算法种子指标覆盖率测试方法

基于汉字结构的对抗网络训练方法及水印嵌入方法

网络训练方法汉字结构语义水印嵌入方法对抗性

系统平台与异构模型解耦方法、装置、计算机设备及介质

异构解耦方法统一数据接口语义匹配算法平台

一种基于多模态视觉大模型的导盲场景识别方法

站点导航

APP 下载