基于自监督学习的数据清洗方法、装置、介质及产品

AITNT
正文
推荐专利
基于自监督学习的数据清洗方法、装置、介质及产品
申请号:CN202511159973
申请日期:2025-08-19
公开号:CN120832473A
公开日期:2025-10-24
类型:发明专利
摘要
本申请实施例提供了一种基于自监督学习的数据清洗方法、装置、介质及产品,涉及自然语言处理技术领域。该方法包括:基于自监督学习训练任务,利用无标注的历史对话数据,对预设的大语言模型进行初次预训练,获取训练后的大语言模型;利用所述历史对话数据,确定包含错误信息的对话数据;根据所述包含错误信息的对话数据,对所述训练后的大语言模型进行二次训练,获取训练后的目标大语言模型;所述目标大语言模型用于对话数据的自动化清洗处理。本申请的方案,基于自监督学习训练任务,利用无标注的历史对话数据,获取训练后的目标大语言模型,提高了数据清洗的自动化和适应性,解决了现有技术中数据清洗的效率低和适应性受限的问题。
技术关键词
大语言模型 动态上下文 数据清洗方法 一致性检测 分层 数据清洗装置 可读存储介质 计算机程序产品 标签 自然语言 语义 噪声 处理器 词语 模块 指令 受限
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号