摘要
本申请实施例提供了一种基于自监督学习的数据清洗方法、装置、介质及产品,涉及自然语言处理技术领域。该方法包括:基于自监督学习训练任务,利用无标注的历史对话数据,对预设的大语言模型进行初次预训练,获取训练后的大语言模型;利用所述历史对话数据,确定包含错误信息的对话数据;根据所述包含错误信息的对话数据,对所述训练后的大语言模型进行二次训练,获取训练后的目标大语言模型;所述目标大语言模型用于对话数据的自动化清洗处理。本申请的方案,基于自监督学习训练任务,利用无标注的历史对话数据,获取训练后的目标大语言模型,提高了数据清洗的自动化和适应性,解决了现有技术中数据清洗的效率低和适应性受限的问题。
技术关键词
大语言模型
动态上下文
数据清洗方法
一致性检测
分层
数据清洗装置
可读存储介质
计算机程序产品
标签
自然语言
语义
噪声
处理器
词语
模块
指令
受限