摘要
本发明涉及电数字数据处理技术领域,特别是涉及一种文本的平滑采样方法、装置、电子设备及存储介质。所述方法包括:S100,获取待采样文本集A,A包括若干类待采样文本,同一类待采样文本的标签相同,不同类待采样文本的标签不同;S200,获取第i类的采样数量si;S300,如果qi≥si,则从第i类待采样文本ai中获取si个待采样文本构成第i类的目标采样文本;否则,将ai确定为第i类的目标采样文本。本发明能够提高采样得到的文本中不同标签对应的文本的数量分布与待采样文本中不同标签对应的文本的数量分布的一致性,以及提高基于采样得到的文本训练得到的语义分析模型对那些对应的文本数量较少的标签的推理能力。
技术关键词
文本
采样方法
采样装置
聚类
电数字数据处理技术
标签
语义分析模型
模块
电子设备
可读存储介质
处理器
存储器
计算机
序列
系统为您推荐了相关专利信息
地点
状态转移算法
高层语义特征
病历
文本生成模型
电力客服工单
摘要生成方法
语音文本处理
摘要生成系统
电力服务系统