一种基于nsp的对ocr的文本聚类去噪方法

正文

推荐专利

申请号：CN202510167602

申请日期：2025-02-17

公开号：CN119625745A

公开日期：2025-03-14

类型：发明专利

摘要

本发明提出一种基于nsp的对ocr的文本聚类去噪方法，涉及噪音数据识别技术领域，包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤，本发明提供一种结合上下文语义分析与聚类分析的一种方法，利用bert模型中的nsp任务模型进行聚类，再对结果进行分析，得到离散的噪音数据，具有通用性以及简便性，由此本发明能够在不同场景和条件下工作，无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像，能够识别并过滤掉那些不相关或错误的文本信息，以确保最终输出的数据是准确和可靠的。

技术关键词

文本语义相关度手机拍摄图像 bert模型数据识别技术度计算方法聚类简便性参数校正场景

系统为您推荐了相关专利信息

一种虚拟现实会议信息处理方法及系统

会议信息处理方法文本信息处理系统通知标记

一种大模型的知识数据排列方法和系统

数据排列方法文本三元组答案元素

基于增量学习的文本分类模型训练方法及装置

语义特征训练文本数据编码器文本分类方法文本分类模型训练

一种基于图片文本大模型的多目标样本自动化标注方法

标注方法文本图片样本标注平台

一种基于集成学习的AI生成新闻鉴别方法

文本大语言模型鉴别方法表达式交叉验证方法

一种基于nsp的对ocr的文本聚类去噪方法

站点导航

APP 下载