一种AI大模型文本训练数据集的质量评估方法及系统

正文

推荐专利

申请号：CN202411568659

申请日期：2024-11-05

公开号：CN119782760A

公开日期：2025-04-08

类型：发明专利

摘要

本发明公开了一种AI大模型文本训练数据集的质量评估方法及系统，方法包括：对大模型文本训练数据集进行预处理；设置评估指标体系，对各指标的阈值及权重进行定义；设置数据集抽样规则，并提取数据集；统计预设数据指标；通过提示词和评估规范，利用大模型对数据集进行偏见及合规性评估；利用文本挖掘技术与大模型协作，根据评估规范识别数据集中的非法毒性内容；基于BERT模型计算数据集的文本困惑度，并根据评估规范计算困惑度评估结果。通过本发明的技术方案，避免了因为数据集问题造成无效的训练以及影响大模型能力输出，有效提升了AI大模型训练效率集模型效果，同时大幅度降低了大模型训练的成本，比较显著地提高了评估效果。

技术关键词

评估指标体系合规性文本挖掘技术 BERT模型评估系统业务系统数据脱毒方法数据抽样模块图书定义互联网

系统为您推荐了相关专利信息

一种未知类型的传染性疾病的分类方法及系统

语义向量 BERT模型分类方法病历患者

装配式钢结构变电站运维管理方法及系统、设备及介质

装配式钢结构模糊综合评价法策略变电站运维管理参数

一种基于加权分形维数的轨交网络抗震韧性评估方法

站点网络主体节点地震动参数网格

基于人工智能的人才招聘推广效果评估系统

阶段动态权重组合评估系统预测评估模型场景

基于大数据的乡村历史建筑保护评估系统

历史建筑保护评估系统历史维修数据大数据裂缝

一种AI大模型文本训练数据集的质量评估方法及系统

站点导航

APP 下载