基于自监督学习的数据清洗方法、装置、介质及产品

正文

推荐专利

申请号：CN202511159973

申请日期：2025-08-19

公开号：CN120832473A

公开日期：2025-10-24

类型：发明专利

摘要

本申请实施例提供了一种基于自监督学习的数据清洗方法、装置、介质及产品，涉及自然语言处理技术领域。该方法包括：基于自监督学习训练任务，利用无标注的历史对话数据，对预设的大语言模型进行初次预训练，获取训练后的大语言模型；利用所述历史对话数据，确定包含错误信息的对话数据；根据所述包含错误信息的对话数据，对所述训练后的大语言模型进行二次训练，获取训练后的目标大语言模型；所述目标大语言模型用于对话数据的自动化清洗处理。本申请的方案，基于自监督学习训练任务，利用无标注的历史对话数据，获取训练后的目标大语言模型，提高了数据清洗的自动化和适应性，解决了现有技术中数据清洗的效率低和适应性受限的问题。

技术关键词

大语言模型动态上下文数据清洗方法一致性检测分层数据清洗装置可读存储介质计算机程序产品标签自然语言语义噪声处理器词语模块指令受限

基于自监督学习的数据清洗方法、装置、介质及产品

站点导航

APP 下载