摘要
本发明提供了面向大模型预训练和RAG技术的语料批量标注方法及系统,涉及自然语言处理技术领域,该方法包括:对输入的原始异构文档进行解析,识别并提取其中的文本、表格及图像元素,最终输出统一的结构化文档;对结构化文档进行预处理;利用大语言模型LLM将用户的标注意图自动转化为可执行的标注脚本,并利用标注脚本对干净语料进行批量标注,生成已标注数据集;基于大语言模型LLM对已标注数据集进行质量评估,并综合分析其标签分布和语义分布,以多目标优化策略动态调度数据增强方式,生成质量与分布均优化的最终数据集。此方法通过构造一个全新的、智能化的自动化流水线,在整体上实现了效率提升、质量优化和灵活性增强的三重有益效果。
技术关键词
模型预训练
标注方法
批量
大语言模型
语义
SimHash算法
自然语言
表格
数据
标注系统
脚本
重构单元
汉明距离
标签
文本分类模型
自动化流水线
策略
可调阈值
噪声分类
指纹
系统为您推荐了相关专利信息
智能预警方法
时序特征
特征提取单元
特征提取模块
多模态