一种大语言模型微调指令集自动标注方法和系统

AITNT
正文
推荐专利
一种大语言模型微调指令集自动标注方法和系统
申请号:CN202411657834
申请日期:2024-11-20
公开号:CN119166823A
公开日期:2024-12-20
类型:发明专利
摘要
本发明公开了一种大语言模型微调指令集自动标注方法和系统,其中,所述方法包括:获取待标注原始语料数据;对待标注原始语料数据进行脱敏和清洗预处理;基于原始语料数据的场景,匹配相应的预训练的大语言模型对语料数据进行标注,生成标注后的标签字段;通过正则语句对所述标注后的标签字段进行校验,校验包括对标签字段的数据内容和数据格式的校验;根据原始语料数据的场景,将生成标注后的标签字段基于SQL进行组装,形成匹配的大语言模型的微调训练集。本发明通过对司法语料数据的处理,形成体系的司法数据解析和标注流程,实现法律垂直领域快速进行司法数据的快速解析、标注以及大语言模型在司法领域实现文本处理任务的赋能。
技术关键词
标注方法 大语言模型 文本 标注策略 数据读写组件 数据格式 字段 清洗组件 实体 车牌号 身份证 标注系统 标签体系 摘要 识别策略 场景 语句 训练集
系统为您推荐了相关专利信息
1
智能语音交互方法、系统、电子设备、存储介质及程序产品
智能对话机器人 智能语音交互方法 文本 交互内容 电商
2
基于多模态与最优传输的开集跨域高光谱分类方法及系统
光谱分类方法 数据 标签 原型 文本
3
基于Transunet边缘信息强化与多维特征感知的遥感图像分割方法
遥感图像分割方法 遥感图像数据 遥感图像分割网络 图像分割模型 文本
4
一种基于扩散模型的山水画生成方法及系统
噪声 生成方法 语义 文本编码器 多尺度
5
文本图像篡改检测方法及装置
图像篡改检测方法 融合特征 高频特征 语义 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号