基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法

正文

推荐专利

申请号：CN202510927008

申请日期：2025-07-07

公开号：CN120852906A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法。该方法通过通域多模态感知大模型和深度估计大模型协同蒸馏，自动生成盲道场景标注数据用于训练端侧导盲大模型。在目标检测数据蒸馏与训练中，构建盲道场景图像数据集，设计结构化提示模板，利用 Seed‑1.5‑VL 模型标注，经人工核验修正后，基于 Qwen2‑VL‑7B‑Instruct 模型进行 LoRA 高效微调；深度感知增强数据蒸馏与训练时，使用 Depth‑AnythingV2 模型生成深度图，构建深度对比训练数据集，对完成目标检测训练的模型进行深度感知 LoRA 微调；训练完成的模型可部署到移动设备，实时进行障碍物识别、深度理解并生成语音导航提示。本发明有效解决了端侧多模态大模型在盲道场景表现不佳的问题，可显著提升导盲准确性。

技术关键词

模型训练方法盲道蒸馏场景数据图像深度值生成深度图障碍物识别坐标生成语音物体检测样本模板移动设备格式标签

基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法

站点导航

APP 下载