摘要
本发明公开了一种用于大语言模型的财税训练数据处理方法及系统,包括:对用于财税训练的财税数据进行采集,以获取原始财税数据;对所述原始财税数据进行数据预处理,并对数据预处理后得到的财税处理数据进行探查,以多维度的对财税处理数据进行打标分类,以获取财税标签数据;根据训练任务的类型的不同,基于所述财税标签数据进行初始训练数据的构建;对所述初始训练数据进行质量检测,以获取满足训练需求的用于大语言模型训练的财税训练数据。本发明的方法从数据采集到最后的数据质检,实现全流程的数据构建策略,解决财税行业高质量训练数据难以构建的问题;并通过持续更新的流水线作业,保障大模型的训练数据紧跟财税法规政策变化情况,避免产生过时的判断及回复。
技术关键词
大语言模型
训练数据处理方法
标签
数据采集单元
数据处理单元
附件
算法
数据处理系统
流水线作业
文本
格式
策略
系统为您推荐了相关专利信息
路灯智能控制系统
路灯智能控制方法
亮度
调节路灯
数据采集模块
情绪识别方法
教学场景
文本特征向量
图像特征向量
情绪识别技术