基于多模态大模型的视觉识别定位方法及系统

正文

推荐专利

申请号：CN202510822628

申请日期：2025-06-19

公开号：CN120726290A

公开日期：2025-09-30

类型：发明专利

摘要

本发明属于人工智能技术领域，涉及一种基于多模态大模型的视觉识别定位方法及系统，所述方法包括：1)通过对开源视觉定位数据集的数据进行格式处理而形成视觉识别定位的图文对训练数据；2)利用图文对训练数据微调多模态大模型；3)使用微调后的多模态大模型在图文对训练数据上生成多个训练数据识别定位结果；4)从多个训练数据识别定位结果中挑选出唯一的最佳正确结果；5)使用最佳正确结果构建拒绝采样数据；6)利用拒绝采样数据拒绝采样微调所述微调后的多模态大模型；7)利用拒绝采样微调后的多模态大模型生成视觉识别定位结果。其通过引入拒绝采样微调技术，提升了多模态大模型生成正确识别定位的概率，优化了模型生成结果质量。

技术关键词

识别定位方法多模态微调方法图文数据视觉识别定位系统识别定位设备微调技术人工智能技术处理器模块图片格式可读存储介质程序文本存储器计算机参数

系统为您推荐了相关专利信息

基于3D高斯溅射的无人机编组动态人体实时三维重建方法

隐马尔可夫模型三维重建方法高斯混合模型稠密点云点云密度

基于云计算和区块链技术的环保在线监测方法及系统

区块链平台监测算法区块链技术数据网关

一种基于剧本三维媒体数据生成方法及系统

人物模型建筑模型基础设施模型数据生成方法生成视频数据

一种基于滤波和高斯过程的桥梁静动力学趋势分析方法

趋势分析方法桥梁低通滤波器 GPR模型结构健康检测系统

多模态通专协同因果思维链推理电力异常检测方法及系统

节点异常检测方法链条模态特征层级

基于多模态大模型的视觉识别定位方法及系统

站点导航

APP 下载