摘要
本申请实施例提供了一种文本数据质量评估方法及装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待评估的文本数据集,文本数据集包括多个数据样本;对文本数据集中的多个数据样本进行样本相似处理,得到若干个相似样本子集;对相似样本子集内的数据样本进行合并处理,得到目标数据样本;根据目标数据样本的数据重复率对进行去重处理;将更新后的目标数据样本输入至预训练的质量评估模型中,得到与每个目标数据样本一一对应的样本评估等级;根据样本评估等级,确定文本数据集的数据集评估等级。本申请实施例能够自动化对文本数据集进行评估,提高了数据评估效率,以及为后续的大模型训练提供了高质量的训练库。
技术关键词
样本
数据
文本
统计语言模型
关键词
电子设备
标记
可读存储介质
人工智能技术
评估装置
格式
处理器
存储器
计算机
策略
参数
分区
系统为您推荐了相关专利信息
智能监控系统
肉制品设备
判别模块
图片
仪表读数识别
电力营销数据
智能分析方法
电力业务数据
语义
节点
通道注意力机制
图像
池化特征
计算机可执行指令
蒸馏
电力电缆沟道
切换传输方法
无线网络
链路拥塞度
神经网络模型