摘要
本发明公开一种大语言模型微调指令集构建方法、装置及设备,其中,大语言模型微调指令集构建方法,包括采集互联网公开的专业知识文章;基于Word2Vec模型和余弦相似度算法对采集的文章进行相似度匹配,其中,相似度分数高的文章被过滤,保留相似文章中最长的文本最为训练数据提取样本;构建提示短语,并采用大型语言模型从过滤出的文章中提取关键知识点;根据每个所述知识点生成跨多个维度的初步训练数据集;遍历初步训练数据集,对每个元素进行Jaccard相似系数匹配,过滤相似系数0.85以上的元素,形成最终训练数据。本发明技术方案旨在提高指令集的多样性,形成高质量的训练数据集。
技术关键词
Word2Vec模型
知识点
文章
大语言模型
计算机程序代码
过滤模块
互联网
算法
元素
存储器
数据采集模块
文本
电子设备
处理器
样本
漏洞
指令
系统为您推荐了相关专利信息
大语言模型
代码分析方法
摘要
代码分析系统
静态程序分析
层级
文本
生成参数
大语言模型
非易失性计算机可读存储介质