摘要
本发明提供一种训练数据集的构建方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:对采集的第一数据集预处理得到第二数据集,包括将非文本类型的数据转换为文本类型的数据;获取第二数据集中的各数据的综合分类评分;基于第二数据集中的各数据的综合分类评分,从第二数据集中筛选出目标训练数据集。本发明提供的训练数据集的构建方法、装置、电子设备及存储介质,通过引入自适应领域评估函数来计算每个数据的综合分类评分,可根据各场景及领域需求动态评估并筛选数据,从而在拓宽数据来源、降低清洗成本、统一质量标准及提升专业领域数据纯度等方面有明显的技术提升效果。
技术关键词
文本分类模型
数据分类
样本
光学字符识别技术
非暂态计算机可读存储介质
关键词
电子设备
格式
热力图
处理器
人工智能技术
计算机程序产品
分词
模块
存储器
标签
矩阵
模式
系统为您推荐了相关专利信息
定量评价方法
斜坡单元
机器学习算法
数据挖掘方法
因子
训练数据生成方法
钓鱼邮件
大语言模型
网络攻击识别
样本