一种基于nsp的对ocr的文本聚类去噪方法

AITNT
正文
推荐专利
一种基于nsp的对ocr的文本聚类去噪方法
申请号:CN202510167602
申请日期:2025-02-17
公开号:CN119625745A
公开日期:2025-03-14
类型:发明专利
摘要
本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像,能够识别并过滤掉那些不相关或错误的文本信息,以确保最终输出的数据是准确和可靠的。
技术关键词
文本 语义相关度 手机拍摄图像 bert模型 数据识别技术 度计算方法 聚类 简便性 参数 校正 场景
系统为您推荐了相关专利信息
1
一种虚拟现实会议信息处理方法及系统
会议信息处理方法 文本 信息处理系统 通知 标记
2
一种大模型的知识数据排列方法和系统
数据排列方法 文本 三元组 答案 元素
3
基于增量学习的文本分类模型训练方法及装置
语义特征 训练文本数据 编码器 文本分类方法 文本分类模型训练
4
一种基于图片文本大模型的多目标样本自动化标注方法
标注方法 文本 图片 样本 标注平台
5
一种基于集成学习的AI生成新闻鉴别方法
文本 大语言模型 鉴别方法 表达式 交叉验证方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号