摘要
本发明公开了一种用于构建模型训练数据的方法、系统、设备及介质,属于数据处理技术领域。本发明方法,包括:针对目标领域模型,确定所述目标领域模型的模型信息,并确定用于训练目标领域模型的模型训练数据的数据来源;对所述初始模型训练数据进行错误数据的清洗处理、篇章级和句子级的排重处理以及安全性数据过滤处理,得到待评估的模型训练数据;构建用于评估模型训练数据质量的评估指标;对所述待评估的模型训练数据的质量进行评估,确定评估结果是否符合评估指标阈值,将符合评估指标阈值的待评估的模型训练数据,作为模型训练数据进行输出。本发明能够构建模型所需的数据集,节省了人力及时间成本,并且降低了数据集的构建难度。
技术关键词
指标
文本分类模型
数据安全性
数据处理单元
数据处理技术
数据分布
数据格式
处理器
计算机设备
可读存储介质
关键词
重复性
标记
程序
主题
算法
人力
系统为您推荐了相关专利信息
分析单元
成绩
分析系统
学习专业技能
学生学习状态
生成样本数据
计算机可读指令
账号
风险指标值
分配信息
多传感器融合
UWB定位标签
机器人定位方法
机器人定位系统
数据处理单元
射频开关器件
NMOS开关器件
版图面积
射频开关技术
射频开关芯片