摘要
本公开关于一种模型指令数据处理方法、装置、电子设备及存储介质,方法包括:获取第一指令数据集中各指令数据的数据质量;根据各指令数据的数据质量,对第一指令数据集进行筛选,得到第二指令数据集;标注第二指令数据集中各指令数据的模型任务类型,以及,提取第二指令数据集中各指令数据的语义特征;根据各指令数据的模型任务类型和各指令数据的语义特征,对第二指令数据集进行筛选,得到用于对大语言模型进行指令对齐的目标指令数据集;目标指令数据集包括属于不同模型任务类型的至少两个指令数据,至少两个指令数据的语义相似度大于预设相似度阈值。采用本公开可以提高大规模语言模型的互动性能。
技术关键词
指令数据处理方法
节点
语义特征
电子设备
代表
大语言模型
计算机程序产品
队列
处理器
可读存储介质
数据处理装置
存储器
机制
系统为您推荐了相关专利信息
患者筛选方法
预警规则
文本
深度学习模型
集深度学习
半导体
数据采集单元
机器学习算法
处理单元
数据采集器