摘要
本发明公开一种基于位置反思思维链的多模态大模型训练方法,包括以下步骤:S1、构建位置反思型思维链数据,通过区分思维链中数据提取与逻辑推理步骤,为前者关联图表视觉区域坐标,经绘图代码编辑、重渲染验证及图像分析技术自动化生成位置注释数据;S2、训练结构化推理模型,构建含视觉定位与逻辑推理的多类型指令数据集,采用多任务损失函数联合优化答案预测、位置定位及推理步骤生成,并通过边界框反思机制增强模型对图表元素的感知能力。本发明的方法有效解决现有模型依赖OCR导致的数值幻觉及思维链缺乏视觉交互问题,提升了图表理解准确性与思维链解释性,在主流基准上性能显著优于现有方法。
技术关键词
多任务损失函数
模型训练方法
图表
图像分析技术
数据
答案
坐标
视觉标识符
序列
构建训练集
位置验证
样本
多模态
计算机程序产品
机制
编辑
教师
指令
系统为您推荐了相关专利信息
激光点云数据
输电导线弧垂
多模态特征融合
注意力机制
计算机程序产品
多窗口
窗口检测
算法
负荷识别技术
残差网络模型
实体关系提取方法
动作关系
新型电力系统
语义角色标注
实体关系数据
水利模型
资源调度方法
轻量级容器
数据采集程序
队列
车道
车辆运动数据
道路特征
路径规划功能
车载传感器