摘要
本发明涉及电数字数据处理技术领域,特别是涉及一种基于采样比的文本处理方法。所述方法包括:获取第i类待采样文本ai,ai包括的待采样文本的数量为qi,ai包括的qi个待采样文本的标签相同;获取第i类的采样数量si;获取第i类的采样比ri,ri=si/qi;如果ri<r0,则根据ai包括的待采样文本之间的文本相似度对ai进行聚类,得到聚类结果Gi;获取Gi中最小簇包括的待采样文本的数量si,min;如果si,min≥f(si/m),则遍历Gi,从gi,j中获取f(si/m)个待采样文本构成第i类的初始采样文本。本发明提高了经训练的语义分析模型的推理能力。
技术关键词
文本处理方法
电数字数据处理技术
聚类
语义分析模型
标签
系统为您推荐了相关专利信息
定位包装箱
指纹模型
验收方法
定位标签
包装箱信息
指标
企业
初始聚类中心
大数据
信用等级评价系统