大模型预训练数据处理方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
大模型预训练数据处理方法、装置、电子设备及存储介质
申请号:CN202510667835
申请日期:2025-05-23
公开号:CN120804692A
公开日期:2025-10-17
类型:发明专利
摘要
本发明提供一种大模型预训练数据处理方法、装置、电子设备及存储介质,属于大模型技术领域。本发明包括:识别目标大模型的预训练数据中的薄弱内容;生成薄弱内容对应的探查查询;将探查查询输入目标大模型,得到目标大模型输出的基线回答;在预训练数据中检索与探查查询最相关的第一数据片段;将探查查询和第一数据片段输入目标大模型,得到目标大模型输出的增强回答;根据增强回答与基线回答的差异性判断薄弱内容是否为问题数据。本发明先识别出大模型预训练数据中的薄弱内容,生成薄弱内容对应的探查查询,然后根据目标大模型对探查查询的增强回答与基线回答的差异性判断薄弱内容是否为问题数据,可以准确识别大模型预训练数据中的问题数据。
技术关键词
模型预训练 数据处理方法 基线 主题关键词 非暂态计算机可读存储介质 聚类 输入模块 电子设备 数据处理装置 处理器 表格 识别模块 存储器 字符
系统为您推荐了相关专利信息
1
基于AI客服的用户数据处理方法及装置
多模态特征 情绪识别模型 数据处理方法 语音特征 语音识别模型
2
掘锚机的数据处理方法、装置、存储介质和系统
掘锚机 截割电机 行走编码器 油缸行程 电流
3
一种基于大数据的施工数据处理方法及系统
数据处理系统 数字孪生体 大数据 风险量化评估 存储设备
4
多视点自主协同定位方法及系统
自主协同定位方法 关键帧 全局地图 视觉传感器 全局优化算法
5
基于P4语言和深度包检测的策略流控方法及设备
前置机系统 流控方法 子系统 可编程交换机 非暂态计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号