摘要
本发明提供一种基于大语言模型的自动化长文本微调指令集构建方法,包括:获取输入文本,采用递归字符分割法对输入文本进行分割,生成段落集合;针对生成的段落集合,大语言模型根据任务类型通过预设的问题类型集合和提示模板,采用自我指导学习方法生成问题集合和答案集合;基于生成的问题集合和答案集合生成指令集,多维度评估指令集的质量,根据评估结果对指令集进行优化得到优化后的指令集。本发明能够自动生成高质量的长文本微调指令集,以提高大语言模型的性能,同时解决长上下文处理的挑战。通过自动化构建长文本微调指令集,减少了人工标注的需求,降低了成本,同时提高了微调过程的效率和模型的长文本处理能力。
技术关键词
大语言模型
文本段落
学习方法
模板
生成答案
种子
非暂态计算机可读存储介质
字符
处理器
切割模块
计算机程序产品
分段
存储器
定义
电子设备
指令
系统为您推荐了相关专利信息
医疗数据分类方法
医疗数据分类模型
支持向量机模型
逻辑回归模型
PCA算法
DFN封装结构
协同优化方法
机器学习方法
曲线
信噪比
微网系统
时间序列模型
电力控制方法
神经网络模型
电力控制设备
大语言模型
标签生成方法
文本
生成标签
标签匹配方法