摘要
本发明公开了一种异构BERT和半监督SVM模型的情报标签提取方法,包括:获取原始非结构化情报文本数据集,并对其进行文本预处理和数据增强操作;基于BTM短文本和LDA长文本主题模型对情报文本进行主题词的提取,得到情报文本的主题词向量;基于Doc2Vec模型对情报文档进行句向量表示;将主题词向量和句向量输入BERT模型中进行预训练,以获得带有主题信息的特征向量;使用少量有标签数据和大量无标签数据对半监督SVM模型进行训练调参;将带有主题信息的特征向量输入半监督SVM二分类算法模型中进行训练,得到数据标签的提取结果。本发明能够有效地提取出情报文本的数据标签,充分利用无标签数据信息,提高数据标签提取系统的准确性和泛化能力。
技术关键词
标签提取方法
主题词向量
编码向量
异构
无标签数据
词袋模型
BERT模型
数据标签
翻译软件
矩阵
文本主题模型
词语
半监督训练
神经网络参数
同义词
样本
系统为您推荐了相关专利信息
多核异构系统
自检控制方法
标识
自检控制装置
系统芯片
AI辅助诊断系统
互联网医院
非结构化特征
电子健康档案
特征提取技术
DDR存储器
异构平台
总线互联模块
处理器系统
数据采集模块
非结构化文档
语义分割模型
检索算法
异构
非易失性计算机存储介质