网络安全场景的大语言模型微调数据集构建方法及系统

正文

推荐专利

申请号：CN202510258058

申请日期：2025-03-05

公开号：CN120372275A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种网络安全场景的大语言模型微调数据集构建方法及系统。先采集网络安全原始数据，将网络安全原始数据转换成问答对数据；再对问答对数据进行深度扩展和广度扩展，得到扩展后的问答对数据；接着对扩展后的问答对数据进行数据清洗，得到最终的数据集。通过整合多样化的数据来源，结合大语言模型的提示词生成、扩展和数据清洗技术，实现了高效、低成本的构建高质量的网络安全领域大模型微调数据集，构建的数据集具有覆盖范围广、质量高、适配性强的特点，可显著提升网络安全领域小模型微调的性能及其实用价值，为网络安全场景下智能化应用的发展提供了重要支撑。

技术关键词

问答对数据数据集构建方法数据集构建系统大语言模型清洗单元数据转换单元场景数据转换模块聚类数据清洗技术扩展模块标记邻域语义关键词噪声符号分段低成本

系统为您推荐了相关专利信息

一种构建医疗实体画像的方法、装置、设备和存储介质

文本画像病历符号实体

临床试验知情同意书签署方法、签署系统及电子设备

签署方法签署系统实时语音电子设备自然语言理解

用于BIM系统的工艺技术检索管控方法和装置

建筑信息模型生成工艺技术检索管控方法图谱检索策略

数据库查询方法及电子设备

数据库查询方法语句大语言模型自然语言集群管理

一种中医智能问答方法、系统、设备及介质

智能问答方法三元组智能问答系统实体关系

网络安全场景的大语言模型微调数据集构建方法及系统

站点导航

APP 下载