微调数据筛选方法、装置、计算机设备和可读存储介质

AITNT
正文
推荐专利
微调数据筛选方法、装置、计算机设备和可读存储介质
申请号:CN202410832860
申请日期:2024-06-26
公开号:CN118504663A
公开日期:2024-08-16
类型:发明专利
摘要
本申请涉及大数据领域,具体公开了一种微调数据筛选方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取待标注数据集,待标注数据集包括符合预设的数据质量要求的数据,对待标注数据集进行质量评分,得到待标注数据集的质量评分结果,提取待标注数据集中的数据主题,基于提取出的数据主题,将待标注数据集划分为多个主题数据集,主题数据集与数据主题一一对应,从每一主题数据集中筛选出质量评分高于预设的评分阈值的目标数据,归集每一主题数据集中的目标数据,得到微调数据集。采用本方法能够筛选得到质量更高的微调数据,进而能够提升模型的微调效果。
技术关键词
主题数据 数据筛选方法 复杂度 模型训练模块 大语言模型 计算机设备 数据筛选装置 计算机程序产品 标签 可读存储介质 数据获取模块 数据处理模块 处理器 存储器 大数据 分词
系统为您推荐了相关专利信息
1
一种铸件X射线探伤16位灰度图像缺陷检测方法及系统
图像缺陷检测方法 X射线探伤 检测缺陷 深度学习模型 铸件
2
一种基于GBRT算法的检修任务分发方法及系统
分发系统 算法 检修计划 留言板功能 设备实时状态
3
一种基于解剖和拓扑感知的颅内动脉多类别分割方法
邻接关系感知 分割方法 图像 感兴趣 血管
4
训练数据的获取方法、病历结构化模型的训练方法、装置及病历结构化设备
术语 医学 中文电子病历 大语言模型 计算机人工智能技术
5
一种采煤巷道气体监控系统和方法
采煤巷道 气体监控系统 数据特征提取 模型训练模块 数据采集模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号