摘要
本申请涉及计算机技术领域,具体提供一种文档数据过滤方法、大语言模型训练方法、设备及介质。旨在解决大语言模型的训练数据质量不佳的技术问题。本申请的文档数据过滤方法包括:获取文档数据集,文档数据集包括多个文档数据;对文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对文档数据集中的文档数据进行质量评估,确定文档数据的质量分数;基于文档数据对应的文档类别和质量分数,判断文档数据是否符合过滤条件;若是,则将文档数据进行过滤。本申请通过文档数据的文档类别和质量分数将符合过滤条件的低质量文档数据进行过滤,有效地优化了文档数据集的数据质量。
技术关键词
数据过滤方法
大语言模型
判断文档数据
文档分类
哈希算法
处理器
可读存储介质
文本
存储器
电子设备
计算机
系统为您推荐了相关专利信息
存储服务器
大语言模型
JSON数据存储
生成方法
RPA技术
动作识别方法
手部特征
感知哈希算法
图像
指数算法
脱敏方法
大语言模型
脱敏策略
脱敏规则
检测敏感信息
数据存储方法
分布式数据库
存储结构
缓存技术
故障报警信息