一种AI大模型文本训练数据集的质量评估方法及系统

AITNT
正文
推荐专利
一种AI大模型文本训练数据集的质量评估方法及系统
申请号:CN202411568659
申请日期:2024-11-05
公开号:CN119782760A
公开日期:2025-04-08
类型:发明专利
摘要
本发明公开了一种AI大模型文本训练数据集的质量评估方法及系统,方法包括:对大模型文本训练数据集进行预处理;设置评估指标体系,对各指标的阈值及权重进行定义;设置数据集抽样规则,并提取数据集;统计预设数据指标;通过提示词和评估规范,利用大模型对数据集进行偏见及合规性评估;利用文本挖掘技术与大模型协作,根据评估规范识别数据集中的非法毒性内容;基于BERT模型计算数据集的文本困惑度,并根据评估规范计算困惑度评估结果。通过本发明的技术方案,避免了因为数据集问题造成无效的训练以及影响大模型能力输出,有效提升了AI大模型训练效率集模型效果,同时大幅度降低了大模型训练的成本,比较显著地提高了评估效果。
技术关键词
评估指标体系 合规性 文本挖掘技术 BERT模型 评估系统 业务系统数据 脱毒方法 数据抽样 模块 图书 定义 互联网
系统为您推荐了相关专利信息
1
一种未知类型的传染性疾病的分类方法及系统
语义向量 BERT模型 分类方法 病历 患者
2
装配式钢结构变电站运维管理方法及系统、设备及介质
装配式钢结构 模糊综合评价法 策略 变电站运维管理 参数
3
一种基于加权分形维数的轨交网络抗震韧性评估方法
站点 网络主体 节点 地震动参数 网格
4
基于人工智能的人才招聘推广效果评估系统
阶段 动态权重组合 评估系统 预测评估模型 场景
5
基于大数据的乡村历史建筑保护评估系统
历史建筑保护 评估系统 历史维修数据 大数据 裂缝
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号