一种用于大语言模型的财税训练数据处理方法及系统

AITNT
正文
推荐专利
一种用于大语言模型的财税训练数据处理方法及系统
申请号:CN202411915892
申请日期:2024-12-24
公开号:CN120030342A
公开日期:2025-05-23
类型:发明专利
摘要
本发明公开了一种用于大语言模型的财税训练数据处理方法及系统,包括:对用于财税训练的财税数据进行采集,以获取原始财税数据;对所述原始财税数据进行数据预处理,并对数据预处理后得到的财税处理数据进行探查,以多维度的对财税处理数据进行打标分类,以获取财税标签数据;根据训练任务的类型的不同,基于所述财税标签数据进行初始训练数据的构建;对所述初始训练数据进行质量检测,以获取满足训练需求的用于大语言模型训练的财税训练数据。本发明的方法从数据采集到最后的数据质检,实现全流程的数据构建策略,解决财税行业高质量训练数据难以构建的问题;并通过持续更新的流水线作业,保障大模型的训练数据紧跟财税法规政策变化情况,避免产生过时的判断及回复。
技术关键词
大语言模型 训练数据处理方法 标签 数据采集单元 数据处理单元 附件 算法 数据处理系统 流水线作业 文本 格式 策略
系统为您推荐了相关专利信息
1
多人太极拳运动图像识别评分方法和存储介质
运动图像识别 评分方法 坐标 人体关键点 样本
2
密钥更新方法和计算机可读存储介质
镜像 密钥更新方法 计算机可执行指令 标签 标志
3
一种基于数据分析的路灯智能控制系统及方法
路灯智能控制系统 路灯智能控制方法 亮度 调节路灯 数据采集模块
4
一种交友投资类电信网络诈骗受害者事中保护方法及系统
借记卡 评分卡模型 电信网络 静态特征 保护方法
5
一种课堂情绪识别方法、装置、介质和设备
情绪识别方法 教学场景 文本特征向量 图像特征向量 情绪识别技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号