一种大语言模型微调指令集自动标注方法和系统

正文

推荐专利

申请号：CN202411657834

申请日期：2024-11-20

公开号：CN119166823A

公开日期：2024-12-20

类型：发明专利

摘要

本发明公开了一种大语言模型微调指令集自动标注方法和系统，其中，所述方法包括：获取待标注原始语料数据；对待标注原始语料数据进行脱敏和清洗预处理；基于原始语料数据的场景，匹配相应的预训练的大语言模型对语料数据进行标注，生成标注后的标签字段；通过正则语句对所述标注后的标签字段进行校验，校验包括对标签字段的数据内容和数据格式的校验；根据原始语料数据的场景，将生成标注后的标签字段基于SQL进行组装，形成匹配的大语言模型的微调训练集。本发明通过对司法语料数据的处理，形成体系的司法数据解析和标注流程，实现法律垂直领域快速进行司法数据的快速解析、标注以及大语言模型在司法领域实现文本处理任务的赋能。

技术关键词

标注方法大语言模型文本标注策略数据读写组件数据格式字段清洗组件实体车牌号身份证标注系统标签体系摘要识别策略场景语句训练集

系统为您推荐了相关专利信息

智能语音交互方法、系统、电子设备、存储介质及程序产品

智能对话机器人智能语音交互方法文本交互内容电商

基于多模态与最优传输的开集跨域高光谱分类方法及系统

光谱分类方法数据标签原型文本

基于Transunet边缘信息强化与多维特征感知的遥感图像分割方法

遥感图像分割方法遥感图像数据遥感图像分割网络图像分割模型文本

一种基于扩散模型的山水画生成方法及系统

噪声生成方法语义文本编码器多尺度

文本图像篡改检测方法及装置

图像篡改检测方法融合特征高频特征语义文本

一种大语言模型微调指令集自动标注方法和系统

站点导航

APP 下载