摘要
本申请涉及计算机技术领域,尤其公开了一种数据处理方法、装置、电子设备及可读存储介质,方法包括:获取S个分类类目分别对应的主题集合;从语料库中获取与目标主题相关联的文档,将与目标主题相关联的文档添加至目标文档集合,获取目标主题分别与目标文档集合中的文档之间的相关性分数;根据目标主题分别与目标文档集合中的文档之间的相关性分数,从目标文档集合中获取满足检索条件的M个文档;对M个文档进行文档拼接,得到目标主题对应的上下文数据,将上下文数据添加至训练数据集合;训练数据集合用于训练目标大语言模型。本申请可以提高训练数据集合的多样性,提高大语言模型的长上下文建模能力,且提高大语言模型的适用性。
技术关键词
主题集合
大语言模型
分词
文本
分片
数据处理方法
链表
计算机程序代码
计算机程序产品
电子设备
可读存储介质
数据处理装置
参数
指令
处理器
拼接模块
存储器
系统为您推荐了相关专利信息
继电保护回路
电力系统
故障检测模型
设备状态参数
初始故障检测