摘要
本发明涉及电数字数据处理技术领域,特别是涉及一种基于文本重复度的文本处理方法、设备及存储介质。所述方法包括:获取第i类待采样文本ai,ai包括的待采样文本的数量为qi,ai包括的qi个待采样文本的标签相同;获取第i类的采样数量si;如果qi>si,则从ai中随机获取si个待采样文本构成第i类的判别采样文本Bi;对Bi进行分组,得到分组结果Ri,Ri包括v个组;根据Ri包括的组之间的文本相似度获取Bi中文本之间的重复度simi;如果simi≤sim0,则将Bi确定为第i类的目标采样文本。本发明提高了获取采样文本的效率和提高了基于采样得到的文本进行训练的语义分析模型的推理能力。
技术关键词
文本处理方法
电数字数据处理技术
语义分析模型
可读存储介质
处理器
标签
存储器
计算机
电子设备
系统为您推荐了相关专利信息
任务分配策略
天车调度方法
动态调度算法
状态传感器
运动
套管工具
牵引机构
排水管道
切割机构
处理器设备
语言模型构建方法
差分隐私
客户端
模型更新
异构
查询方法
单轮
检索策略
文本生成模型
交互式语音