面向大模型预训练和RAG技术的语料批量标注方法及系统

AITNT
正文
推荐专利
面向大模型预训练和RAG技术的语料批量标注方法及系统
申请号:CN202511218714
申请日期:2025-08-28
公开号:CN121030489A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供了面向大模型预训练和RAG技术的语料批量标注方法及系统,涉及自然语言处理技术领域,该方法包括:对输入的原始异构文档进行解析,识别并提取其中的文本、表格及图像元素,最终输出统一的结构化文档;对结构化文档进行预处理;利用大语言模型LLM将用户的标注意图自动转化为可执行的标注脚本,并利用标注脚本对干净语料进行批量标注,生成已标注数据集;基于大语言模型LLM对已标注数据集进行质量评估,并综合分析其标签分布和语义分布,以多目标优化策略动态调度数据增强方式,生成质量与分布均优化的最终数据集。此方法通过构造一个全新的、智能化的自动化流水线,在整体上实现了效率提升、质量优化和灵活性增强的三重有益效果。
技术关键词
模型预训练 标注方法 批量 大语言模型 语义 SimHash算法 自然语言 表格 数据 标注系统 脚本 重构单元 汉明距离 标签 文本分类模型 自动化流水线 策略 可调阈值 噪声分类 指纹
系统为您推荐了相关专利信息
1
回复推荐方法、装置、电子设备、存储介质及程序产品
推荐方法 历史搜索信息 信息推荐技术 会话 对象
2
仓储异常检测与智能预警方法及系统
智能预警方法 时序特征 特征提取单元 特征提取模块 多模态
3
引入人类验证节点的气象预报生成智能体方法及系统
人机交互模块 报告 节点 大语言模型 生成智能
4
ICD编码方法及装置
病历 神经网络模型 编码方法 样本 语义向量
5
基于动态冗余调整的防丢包传输系统
丢包模式 冗余 语义向量 动态 子系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号