面向大模型预训练和RAG技术的语料批量标注方法及系统

正文

推荐专利

申请号：CN202511218714

申请日期：2025-08-28

公开号：CN121030489A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供了面向大模型预训练和RAG技术的语料批量标注方法及系统，涉及自然语言处理技术领域，该方法包括：对输入的原始异构文档进行解析，识别并提取其中的文本、表格及图像元素，最终输出统一的结构化文档；对结构化文档进行预处理；利用大语言模型LLM将用户的标注意图自动转化为可执行的标注脚本，并利用标注脚本对干净语料进行批量标注，生成已标注数据集；基于大语言模型LLM对已标注数据集进行质量评估，并综合分析其标签分布和语义分布，以多目标优化策略动态调度数据增强方式，生成质量与分布均优化的最终数据集。此方法通过构造一个全新的、智能化的自动化流水线，在整体上实现了效率提升、质量优化和灵活性增强的三重有益效果。

技术关键词

模型预训练标注方法批量大语言模型语义 SimHash算法自然语言表格数据标注系统脚本重构单元汉明距离标签文本分类模型自动化流水线策略可调阈值噪声分类指纹

系统为您推荐了相关专利信息

回复推荐方法、装置、电子设备、存储介质及程序产品

推荐方法历史搜索信息信息推荐技术会话对象

仓储异常检测与智能预警方法及系统

智能预警方法时序特征特征提取单元特征提取模块多模态

引入人类验证节点的气象预报生成智能体方法及系统

人机交互模块报告节点大语言模型生成智能

ICD编码方法及装置

病历神经网络模型编码方法样本语义向量

基于动态冗余调整的防丢包传输系统

丢包模式冗余语义向量动态子系统

面向大模型预训练和RAG技术的语料批量标注方法及系统

站点导航

APP 下载