摘要
本发明公开了一种大语言模型微调指令集自动标注方法和系统,其中,所述方法包括:获取待标注原始语料数据;对待标注原始语料数据进行脱敏和清洗预处理;基于原始语料数据的场景,匹配相应的预训练的大语言模型对语料数据进行标注,生成标注后的标签字段;通过正则语句对所述标注后的标签字段进行校验,校验包括对标签字段的数据内容和数据格式的校验;根据原始语料数据的场景,将生成标注后的标签字段基于SQL进行组装,形成匹配的大语言模型的微调训练集。本发明通过对司法语料数据的处理,形成体系的司法数据解析和标注流程,实现法律垂直领域快速进行司法数据的快速解析、标注以及大语言模型在司法领域实现文本处理任务的赋能。
技术关键词
标注方法
大语言模型
文本
标注策略
数据读写组件
数据格式
字段
清洗组件
实体
车牌号
身份证
标注系统
标签体系
摘要
识别策略
场景
语句
训练集
系统为您推荐了相关专利信息
智能对话机器人
智能语音交互方法
文本
交互内容
电商
遥感图像分割方法
遥感图像数据
遥感图像分割网络
图像分割模型
文本