文档数据过滤方法、大语言模型训练方法、设备及介质

AITNT
正文
推荐专利
文档数据过滤方法、大语言模型训练方法、设备及介质
申请号:CN202410947083
申请日期:2024-07-15
公开号:CN118916336A
公开日期:2024-11-08
类型:发明专利
摘要
本申请涉及计算机技术领域,具体提供一种文档数据过滤方法、大语言模型训练方法、设备及介质。旨在解决大语言模型的训练数据质量不佳的技术问题。本申请的文档数据过滤方法包括:获取文档数据集,文档数据集包括多个文档数据;对文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对文档数据集中的文档数据进行质量评估,确定文档数据的质量分数;基于文档数据对应的文档类别和质量分数,判断文档数据是否符合过滤条件;若是,则将文档数据进行过滤。本申请通过文档数据的文档类别和质量分数将符合过滤条件的低质量文档数据进行过滤,有效地优化了文档数据集的数据质量。
技术关键词
数据过滤方法 大语言模型 判断文档数据 文档分类 哈希算法 处理器 可读存储介质 文本 存储器 电子设备 计算机
系统为您推荐了相关专利信息
1
一种食药同源方的确定方法及相关装置
节点 食药同源 三元组 大语言模型 时序
2
基于RPA和大语言模型的个性化工作总结的生成方法及装置
存储服务器 大语言模型 JSON数据存储 生成方法 RPA技术
3
一种土壤制样规范化流程关键动作识别方法
动作识别方法 手部特征 感知哈希算法 图像 指数算法
4
基于大模型的文本关键词脱敏方法、系统、设备及介质
脱敏方法 大语言模型 脱敏策略 脱敏规则 检测敏感信息
5
一种基于字段级关联存储的数据存储方法及系统
数据存储方法 分布式数据库 存储结构 缓存技术 故障报警信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号