大语言模型微调指令集构建方法、装置及设备

AITNT
正文
推荐专利
大语言模型微调指令集构建方法、装置及设备
申请号:CN202411139031
申请日期:2024-08-19
公开号:CN118964525A
公开日期:2024-11-15
类型:发明专利
摘要
本发明公开一种大语言模型微调指令集构建方法、装置及设备,其中,大语言模型微调指令集构建方法,包括采集互联网公开的专业知识文章;基于Word2Vec模型和余弦相似度算法对采集的文章进行相似度匹配,其中,相似度分数高的文章被过滤,保留相似文章中最长的文本最为训练数据提取样本;构建提示短语,并采用大型语言模型从过滤出的文章中提取关键知识点;根据每个所述知识点生成跨多个维度的初步训练数据集;遍历初步训练数据集,对每个元素进行Jaccard相似系数匹配,过滤相似系数0.85以上的元素,形成最终训练数据。本发明技术方案旨在提高指令集的多样性,形成高质量的训练数据集。
技术关键词
Word2Vec模型 知识点 文章 大语言模型 计算机程序代码 过滤模块 互联网 算法 元素 存储器 数据采集模块 文本 电子设备 处理器 样本 漏洞 指令
系统为您推荐了相关专利信息
1
实验流程指令编排方法、装置、设备、介质及程序产品
大语言模型 编排方法 专业知识库 指令 脚本
2
一种查询改写方法以及查询改写装置
改写装置 关键词 大语言模型 语句 查询改写方法
3
一种异常通信的识别方法、设备、介质及产品
对象 风险 大语言模型 计算机程序指令 推理机制
4
基于大语言模型辅助的内联汇编代码分析方法及系统
大语言模型 代码分析方法 摘要 代码分析系统 静态程序分析
5
文档推荐问题的生成方法、装置、设备和存储介质
层级 文本 生成参数 大语言模型 非易失性计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号