摘要
本申请涉及大数据领域,具体公开了一种微调数据筛选方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取待标注数据集,待标注数据集包括符合预设的数据质量要求的数据,对待标注数据集进行质量评分,得到待标注数据集的质量评分结果,提取待标注数据集中的数据主题,基于提取出的数据主题,将待标注数据集划分为多个主题数据集,主题数据集与数据主题一一对应,从每一主题数据集中筛选出质量评分高于预设的评分阈值的目标数据,归集每一主题数据集中的目标数据,得到微调数据集。采用本方法能够筛选得到质量更高的微调数据,进而能够提升模型的微调效果。
技术关键词
主题数据
数据筛选方法
复杂度
模型训练模块
大语言模型
计算机设备
数据筛选装置
计算机程序产品
标签
可读存储介质
数据获取模块
数据处理模块
处理器
存储器
大数据
分词
系统为您推荐了相关专利信息
图像缺陷检测方法
X射线探伤
检测缺陷
深度学习模型
铸件
分发系统
算法
检修计划
留言板功能
设备实时状态
术语
医学
中文电子病历
大语言模型
计算机人工智能技术
采煤巷道
气体监控系统
数据特征提取
模型训练模块
数据采集模块