摘要
本申请公开一种征拆数据处理方法、系统、电子设备及存储介质,方法包括:获取征拆业务数据集,生成提问集合;对提问集合进行预处理,生成提问回答数据集;根据提问回答数据集通过预设大语言模型进行回答复写,生成第一问答重写数据集,并筛选得到第二问答重写数据集;根据第二问答重写数据集通过预训练语言模型构建得到正负样本数据集,通过预设优化算法对预训练语言模型进行训练,生成目标大语言模型;将待处理征拆数据输入目标大语言模型进行数据处理,得到目标处理结果。本申请实施例能够缓解实际业务场景标注数据缺乏的问题,提升征拆数据处理的稳定性和训练效果,提高征拆数据处理的精确性和正确性。本申请可以广泛应用于人工智能技术领域。
技术关键词
预训练语言模型
大语言模型
文本
数据处理方法
样本
算法
电子设备
数据处理系统
可读存储介质
人工智能技术
处理器
模块
分词
重复性
计算机
程序
格式
存储器