摘要
本申请提供一种文本语料的去重处理方法、去重处理系统和存储介质。文本语料的去重方法包括:对全局待去重文本语料进行随机采样,得到待去重文本语料子集;根据预设的文本分类模型,将待去重文本语料子集分为多个分类集合;对各个分类集合中的文本语料进行层次化聚类,得到层次化聚类结构;根据层次化聚类结构将全局待去重文本语料分至多个语料桶;对所有语料桶进行桶内去重后,进行全局去重,得到去重后的文本。如此,实现了文本语料的去重过程的优化,有利于节约去重过程所需要的计算资源和存储资源。
技术关键词
语义向量
置信度阈值
聚类
文本分类模型
文本分类器
去重方法
情感分类器
去重算法
可读存储介质
处理器
标记
料桶
程序
参数
计算机
载体
关系
系统为您推荐了相关专利信息
正则化参数
矩阵
图像聚类方法
样本
图像聚类算法
电力系统电磁
子系统
节点导纳矩阵
电气
仿真模型
无线采集系统
多模态生理
特征值
曲线
信号调制模块