文本语料的去重处理方法、去重处理系统和存储介质

AITNT
正文
推荐专利
文本语料的去重处理方法、去重处理系统和存储介质
申请号:CN202510536475
申请日期:2025-04-27
公开号:CN120067337B
公开日期:2025-08-08
类型:发明专利
摘要
本申请提供一种文本语料的去重处理方法、去重处理系统和存储介质。文本语料的去重方法包括:对全局待去重文本语料进行随机采样,得到待去重文本语料子集;根据预设的文本分类模型,将待去重文本语料子集分为多个分类集合;对各个分类集合中的文本语料进行层次化聚类,得到层次化聚类结构;根据层次化聚类结构将全局待去重文本语料分至多个语料桶;对所有语料桶进行桶内去重后,进行全局去重,得到去重后的文本。如此,实现了文本语料的去重过程的优化,有利于节约去重过程所需要的计算资源和存储资源。
技术关键词
语义向量 置信度阈值 聚类 文本分类模型 文本分类器 去重方法 情感分类器 去重算法 可读存储介质 处理器 标记 料桶 程序 参数 计算机 载体 关系
系统为您推荐了相关专利信息
1
一种联合布尔权值与L2,p范数的鲁棒图像聚类方法
正则化参数 矩阵 图像聚类方法 样本 图像聚类算法
2
一种基于对偶标签传播的半监督图像分类方法
图像分类方法 矩阵 标签 样本 锚点
3
用于多轮对话query改写任务的训练方法、系统、设备及产品
多轮对话 数据 实体 编码 样本
4
一种电力系统电磁仿真模型的数据拆分处理方法
电力系统电磁 子系统 节点导纳矩阵 电气 仿真模型
5
动态多模态生理参数无线采集系统
无线采集系统 多模态生理 特征值 曲线 信号调制模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号