摘要
本发明公开了一种融合网络结构特征的学科主题识别方法及系统,方法包括:提取一类学科中若干文本数据中的主题,生成主题数据集;从主题数据集中选取若干高影响力的主题作为实验集,随机选取若干主题作为对照集;以主题为节点,将具有关联的主题进行连接,构建主题网络;分别计算实验集主题网络以及对照集主题网络的多维度特征;基于多维度特征得到每个主题的综合得分,以确定主题的影响力排序;将实验集以及对照集中的主题数据划分成训练集和测试集,用于分别训练机器学习模型,以学习高影响力主题的特征,将机器学习模型输出的结果与主题网络中主题影响力排序得到的结果进行比较得到机器学习模型的性能,本发明能够提高主题识别的准确性。
技术关键词
主题识别方法
融合网络结构
主题数据
训练机器学习模型
文本
生成主题
灰色关联度方法
网络中心
编辑距离算法
时间段
节点
多层感知机
支持向量机
随机森林
识别系统
系统为您推荐了相关专利信息
语句
检索方法
非暂态计算机可读存储介质
文本
电子设备
标签系统
FastText算法
自动语音识别
线索
光学字符识别
自然语言理解技术
智能检索方法
构建用户画像
交互历史
查询意图