基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法

AITNT
正文
推荐专利
基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法
申请号:CN202510927008
申请日期:2025-07-07
公开号:CN120852906A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于盲道场景数据蒸馏的多模态端侧导盲大模型训练方法。该方法通过通域多模态感知大模型和深度估计大模型协同蒸馏,自动生成盲道场景标注数据用于训练端侧导盲大模型。在目标检测数据蒸馏与训练中,构建盲道场景图像数据集,设计结构化提示模板,利用 Seed‑1.5‑VL 模型标注,经人工核验修正后,基于 Qwen2‑VL‑7B‑Instruct 模型进行 LoRA 高效微调;深度感知增强数据蒸馏与训练时,使用 Depth‑AnythingV2 模型生成深度图,构建深度对比训练数据集,对完成目标检测训练的模型进行深度感知 LoRA 微调;训练完成的模型可部署到移动设备,实时进行障碍物识别、深度理解并生成语音导航提示。本发明有效解决了端侧多模态大模型在盲道场景表现不佳的问题,可显著提升导盲准确性。
技术关键词
模型训练方法 盲道 蒸馏 场景 数据 图像 深度值 生成深度图 障碍物识别 坐标 生成语音 物体检测 样本 模板 移动设备 格式 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号