一种基于多模态视觉大模型的导盲场景识别方法

AITNT
正文
推荐专利
一种基于多模态视觉大模型的导盲场景识别方法
申请号:CN202510536115
申请日期:2025-04-27
公开号:CN120472387A
公开日期:2025-08-12
类型:发明专利
摘要
本发明涉及计算机视觉领域和图像处理领域,特别涉及一种基于多模态视觉大模型的导盲场景识别方法。包括数据获取,采集典型导盲场景的图像或视频数据,标注后构建数据集,引入图像提示机制并划分训练集和测试集;构建多模态视觉大模型,包含图像编码、语义提示编码、视觉语言融合、场景分析语义解码模块;对模型测试与调优,采用多任务损失函数优化;构建导盲辅助系统,集成图像采集、视觉理解、语音播报功能,实现闭环流程。本发明解决了现有导盲识别技术目标依赖性强、通用性差、语义理解能力弱的问题,支持复杂场景精准识别与语义反馈,提升导盲系统智能化水平与环境适应能力。
技术关键词
场景识别方法 多模态 语义 视觉 图像编码 交叉注意力机制 语音播报功能 解码模块 图像特征向量 辅助系统 图像块 编码模块 数据 编码机制 多任务损失函数 生成自然语言 个性化语音
系统为您推荐了相关专利信息
1
基于激光雷达传感器的养殖舍清粪机器人及其控制方法
激光雷达传感器 地图 硬件设备 系统自检 静态障碍物
2
一种基于一对多匹配策略的视频行人流量估计方法
行人特征 流量估计方法 视频行人 多层感知机 卷积神经网络提取
3
智能算法测试方法、系统、设备及存储介质
智能算法 种子 指标 覆盖率 测试方法
4
基于汉字结构的对抗网络训练方法及水印嵌入方法
网络训练方法 汉字结构 语义 水印嵌入方法 对抗性
5
系统平台与异构模型解耦方法、装置、计算机设备及介质
异构 解耦方法 统一数据接口 语义匹配算法 平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号