文本数据质量评估方法及装置、电子设备及存储介质

AITNT
正文
推荐专利
文本数据质量评估方法及装置、电子设备及存储介质
申请号:CN202410767299
申请日期:2024-06-13
公开号:CN118535886A
公开日期:2024-08-23
类型:发明专利
摘要
本申请实施例提供了一种文本数据质量评估方法及装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待评估的文本数据集,文本数据集包括多个数据样本;对文本数据集中的多个数据样本进行样本相似处理,得到若干个相似样本子集;对相似样本子集内的数据样本进行合并处理,得到目标数据样本;根据目标数据样本的数据重复率对进行去重处理;将更新后的目标数据样本输入至预训练的质量评估模型中,得到与每个目标数据样本一一对应的样本评估等级;根据样本评估等级,确定文本数据集的数据集评估等级。本申请实施例能够自动化对文本数据集进行评估,提高了数据评估效率,以及为后续的大模型训练提供了高质量的训练库。
技术关键词
样本 数据 文本 统计语言模型 关键词 电子设备 标记 可读存储介质 人工智能技术 评估装置 格式 处理器 存储器 计算机 策略 参数 分区
系统为您推荐了相关专利信息
1
一种面向肉制品生产场景的设备仪表智能监控系统及方法
智能监控系统 肉制品设备 判别模块 图片 仪表读数识别
2
一种用于电力营销的稽查智能分析方法及系统
电力营销数据 智能分析方法 电力业务数据 语义 节点
3
一种智能应答方法、装置、终端设备及存储介质
智能应答方法 表格 实体 语句 智能应答装置
4
模型的训练方法、装置、电子设备、存储介质及程序产品
通道注意力机制 图像 池化特征 计算机可执行指令 蒸馏
5
用于电力电缆沟道的无线网络数据切换传输方法、系统及存储介质
电力电缆沟道 切换传输方法 无线网络 链路拥塞度 神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号