摘要
本发明提供了一种基于情景学习的长文档多维度文本分类方法及系统,包括:构建查询指令模版;根据查询指令模版构建人工标注的训练、开发、测试数据集,训练编码器;基于语言模型,进行判断分类;根据分类结果构建相关训练样本采样策略,进行长文档标签类别推理。本发明仅需少量标注样本,人工标注成本较低,在一次前向传播中,共用了文档摘要信息,具有更强的实用性、更为高效的计算效率;具备非常高的灵活性,系统内各模块组件之间具备高度的独立性,能够根据业务需求,对各组件进行自定义设计与优化。
技术关键词
文本特征分析
文本分类方法
文本分类系统
摘要
模版
情景
编码器
指令
标签类别
抽取关键词
BERT模型
模块
数据
人工标记
生成方式
编码向量
策略