摘要
本发明涉及面向短文本实体消歧的多因素文本特性融合的候选实体二级筛选方法,属于实体消歧领域。本发明根据短文本实体消歧的实际应用需求,为进一步精简候选实体规模,将候选实体筛选分为粗化筛选和细化筛选两个阶段。首先,在粗化筛选阶段,利用维基百科知识库,考虑上下文局部匹配度以及实体关联度等指标,对候选实体进行初步筛选。其次,在细化筛选阶段,提出多维特征度量的关键词提取方法,并引入先验信息计算候选实体与实体指称的相似度,通过候选实体的综合相似性评分完成候选实体的细化筛选。
技术关键词
筛选方法
关键词提取方法
语义
维基百科
信息熵理论
文本
度量
实体消歧
关键词提取算法
高维向量空间
大规模语料
词向量模型
机制
句法结构
频率估计
信息检索
系统为您推荐了相关专利信息
深度特征融合
图像分割模型
图像分割方法
线索
融合特征
语义
鲁棒性
生成训练样本
训练样本集
文本匹配方法