摘要
本发明属于人工智能技术领域,涉及一种基于多模态大模型的视觉识别定位方法及系统,所述方法包括:1)通过对开源视觉定位数据集的数据进行格式处理而形成视觉识别定位的图文对训练数据;2)利用图文对训练数据微调多模态大模型;3)使用微调后的多模态大模型在图文对训练数据上生成多个训练数据识别定位结果;4)从多个训练数据识别定位结果中挑选出唯一的最佳正确结果;5)使用最佳正确结果构建拒绝采样数据;6)利用拒绝采样数据拒绝采样微调所述微调后的多模态大模型;7)利用拒绝采样微调后的多模态大模型生成视觉识别定位结果。其通过引入拒绝采样微调技术,提升了多模态大模型生成正确识别定位的概率,优化了模型生成结果质量。
技术关键词
识别定位方法
多模态
微调方法
图文
数据
视觉识别定位系统
识别定位设备
微调技术
人工智能技术
处理器
模块
图片
格式
可读存储介质
程序
文本
存储器
计算机
参数
系统为您推荐了相关专利信息
隐马尔可夫模型
三维重建方法
高斯混合模型
稠密点云
点云密度
人物模型
建筑模型
基础设施模型
数据生成方法
生成视频数据
趋势分析方法
桥梁
低通滤波器
GPR模型
结构健康检测系统