摘要
本申请提供了一种基于学术文献层级标题的指令自动化构建方法和装置、电子设备、存储介质及计算机程序产品,涉及人工智能领域。该方法通过生成式大语言模型对少量层级标题进行标注得到种子数据,然后依托于这些少量标注的种子数据,微调预设的基础大模型;使用微调得到的初始指令预测模型生成未标注层级标题所对应的指令数据,形成候选增强训练数据集合,再用模型评估数据质量,选择高质量数据组合种子数据对初始指令预测模型进行再训练,进一步迭代优化模型;采用迭代微调后的指令预测模型对测试层级标题进行预测,得到预测指令数据,进而确定最终的指令数据集,这些最终的指令数据集语义完整,质量高,能够满足高质量指令数据的需求。
技术关键词
层级
大语言模型
自动化构建方法
指令
数据获取单元
种子
样本
微调单元
计算机程序产品
文本
训练集
清洗单元
解析单元
电子设备
符号
基础
存储器
处理器
语义
系统为您推荐了相关专利信息
桌面容器
图像传输模块
共享存储模块
共享存储空间
封装模块
车体坐标系
地面
激光点云数据
位置偏差值
激光雷达
储能设备
混合整数线性规划
策略
计算机执行指令
强化学习模型
壁挂炉控制器
语音识别单元
主控单元
控制电路
语音识别芯片