摘要
本发明提供一种大模型预训练数据处理方法、装置、电子设备及存储介质,属于大模型技术领域。本发明包括:识别目标大模型的预训练数据中的薄弱内容;生成薄弱内容对应的探查查询;将探查查询输入目标大模型,得到目标大模型输出的基线回答;在预训练数据中检索与探查查询最相关的第一数据片段;将探查查询和第一数据片段输入目标大模型,得到目标大模型输出的增强回答;根据增强回答与基线回答的差异性判断薄弱内容是否为问题数据。本发明先识别出大模型预训练数据中的薄弱内容,生成薄弱内容对应的探查查询,然后根据目标大模型对探查查询的增强回答与基线回答的差异性判断薄弱内容是否为问题数据,可以准确识别大模型预训练数据中的问题数据。
技术关键词
模型预训练
数据处理方法
基线
主题关键词
非暂态计算机可读存储介质
聚类
输入模块
电子设备
数据处理装置
处理器
表格
识别模块
存储器
字符
系统为您推荐了相关专利信息
多模态特征
情绪识别模型
数据处理方法
语音特征
语音识别模型
数据处理系统
数字孪生体
大数据
风险量化评估
存储设备
自主协同定位方法
关键帧
全局地图
视觉传感器
全局优化算法
前置机系统
流控方法
子系统
可编程交换机
非暂态计算机可读存储介质