摘要
本发明公开了一种网络安全场景的大语言模型微调数据集构建方法及系统。先采集网络安全原始数据,将网络安全原始数据转换成问答对数据;再对问答对数据进行深度扩展和广度扩展,得到扩展后的问答对数据;接着对扩展后的问答对数据进行数据清洗,得到最终的数据集。通过整合多样化的数据来源,结合大语言模型的提示词生成、扩展和数据清洗技术,实现了高效、低成本的构建高质量的网络安全领域大模型微调数据集,构建的数据集具有覆盖范围广、质量高、适配性强的特点,可显著提升网络安全领域小模型微调的性能及其实用价值,为网络安全场景下智能化应用的发展提供了重要支撑。
技术关键词
问答对数据
数据集构建方法
数据集构建系统
大语言模型
清洗单元
数据转换单元
场景
数据转换模块
聚类
数据清洗技术
扩展模块
标记
邻域
语义
关键词
噪声
符号
分段
低成本
系统为您推荐了相关专利信息
签署方法
签署系统
实时语音
电子设备
自然语言理解
建筑信息模型
生成工艺技术
检索管控方法
图谱
检索策略
数据库查询方法
语句
大语言模型
自然语言
集群管理