网络安全场景的大语言模型微调数据集构建方法及系统

AITNT
正文
推荐专利
网络安全场景的大语言模型微调数据集构建方法及系统
申请号:CN202510258058
申请日期:2025-03-05
公开号:CN120372275A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种网络安全场景的大语言模型微调数据集构建方法及系统。先采集网络安全原始数据,将网络安全原始数据转换成问答对数据;再对问答对数据进行深度扩展和广度扩展,得到扩展后的问答对数据;接着对扩展后的问答对数据进行数据清洗,得到最终的数据集。通过整合多样化的数据来源,结合大语言模型的提示词生成、扩展和数据清洗技术,实现了高效、低成本的构建高质量的网络安全领域大模型微调数据集,构建的数据集具有覆盖范围广、质量高、适配性强的特点,可显著提升网络安全领域小模型微调的性能及其实用价值,为网络安全场景下智能化应用的发展提供了重要支撑。
技术关键词
问答对数据 数据集构建方法 数据集构建系统 大语言模型 清洗单元 数据转换单元 场景 数据转换模块 聚类 数据清洗技术 扩展模块 标记 邻域 语义 关键词 噪声 符号 分段 低成本
系统为您推荐了相关专利信息
1
一种构建医疗实体画像的方法、装置、设备和存储介质
文本 画像 病历 符号 实体
2
临床试验知情同意书签署方法、签署系统及电子设备
签署方法 签署系统 实时语音 电子设备 自然语言理解
3
用于BIM系统的工艺技术检索管控方法和装置
建筑信息模型 生成工艺技术 检索管控方法 图谱 检索策略
4
数据库查询方法及电子设备
数据库查询方法 语句 大语言模型 自然语言 集群管理
5
一种中医智能问答方法、系统、设备及介质
智能问答方法 三元组 智能问答系统 实体 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号