摘要
本发明公开了一种AI大模型文本训练数据集的质量评估方法及系统,方法包括:对大模型文本训练数据集进行预处理;设置评估指标体系,对各指标的阈值及权重进行定义;设置数据集抽样规则,并提取数据集;统计预设数据指标;通过提示词和评估规范,利用大模型对数据集进行偏见及合规性评估;利用文本挖掘技术与大模型协作,根据评估规范识别数据集中的非法毒性内容;基于BERT模型计算数据集的文本困惑度,并根据评估规范计算困惑度评估结果。通过本发明的技术方案,避免了因为数据集问题造成无效的训练以及影响大模型能力输出,有效提升了AI大模型训练效率集模型效果,同时大幅度降低了大模型训练的成本,比较显著地提高了评估效果。
技术关键词
评估指标体系
合规性
文本挖掘技术
BERT模型
评估系统
业务系统数据
脱毒方法
数据抽样
模块
图书
定义
互联网
系统为您推荐了相关专利信息
装配式钢结构
模糊综合评价法
策略
变电站运维管理
参数
历史建筑保护
评估系统
历史维修数据
大数据
裂缝