摘要
本发明提出了一种基于大语言模型SFT微调技术的数据治理方法,包括以下步骤:步骤1,数据采集与预处理,构建多模态数据集用于训练;步骤2,数据标注与治理任务定义,确定数据治理目标并对多模态数据集中的数据进行标注;步骤3,选择基础大模型并进行初始化;步骤4,基于步骤2中标注的数据,对步骤3中初始化后的模型进行SFT监督微调;步骤5,数据治理目标验证,如果符合预设要求,则执行步骤6,否则返回步骤3;步骤6,将SFT监督微调后的模型进行正式部署,用于数据治理。本发明通用性强,可用于大模型具有领域专一性,同时又要保持一定泛化能力的场景,特别是对信息安全保密性高的领域。
技术关键词
数据治理方法
微调技术
大语言模型
生成标签
多模态
序列
基础
参数
专一性
场景
定义
分段
指标
系统为您推荐了相关专利信息
车型检测方法
二维图像数据
三维点云数据
车辆
卡口
脑电装置
人体生理信号
集成装置
电信号
数据同步采集方法