摘要
本发明涉及自然语言处理领域,公开了一种开源情报语义可信分析和Bi‑LSTM‑Atten模型的自优化标签提取方法,包括开源情报收集和预处理,建立数据源价值评估模型;开源情报特征提取,对爬取的文本进行分词处理,计算每个分词权重,得到候选标签集合,使用BERT对选出的候选标签进行词嵌入;开源情报语义可信分析,构建可信情报分类器,筛选出可信情报集合;可信开源情报标签提取,构建标签评价模型,构建标签评分训练集,训练基于Bi‑LSTM‑Atten模型的标签质量打分器;利用标签质量打分器得到各标签的分数;根据打分器的评分结果对候选标签集中的所有标签打分,提取用户定义的前k个标签。通过本发明可以提升开源情报标签提取的准确性和可信性。
技术关键词
标签提取方法
打分器
随机森林模型
深度信念网络
分布式爬虫集群
分词
训练集
服务器
队列
文本
算法
消息更新
分类器
语义特征
非监督
数据
系统为您推荐了相关专利信息
燃烧室壁面
预警决策方法
判断冷却系统
特征值
随机森林模型
灰度共生矩阵
识别方法
随机森林模型
图像金字塔
PWM信号控制舵机
动态优化方法
曲线
参数优化模型
动态优化系统
时间段
水田
随机森林模型
植被净初级生产力
评价方法
指数